前段时间,由于项目中的爬取需求,写了一个爬取网页图片的工具。 我在这个过程中遇到了很多问题。 比如不同网页上的图片地址格式不同,存储位置也不同,这就很麻烦。 ,我经历了很多麻烦,但幸运的是都解决了。 客户是IT新手,所以操作界面必须简单易懂,傻瓜也能看懂。 我想吐槽的是,开发界面实在是太原始了。
该工具具有以下特点: 1.支持多个网页图片抓取,支持模板网页下载多个文件(类似迅雷),支持导入URL文件; 2.支持本地爬取和代理爬取; 3.支持手动中断抓图; 4.支持自定义图片存储目录,根据URL特征自动为图片创建分类目录; 5.支持自动清理失败的图片下载; 6.支持下载图片去重功能; 7.支持在抓取过程中查看已删除的图片。 下载图片;
功能介绍视频地址:优酷视频
//==.html
功能测试结果:搜索网站类似于百度,知识网站类似于知乎,行业网站类似于车X之家,常见的美容/美容网站均能成功抓取。
功能界面截图:
1.下载后解压到本地电脑,双击.exe启动软件。
2、填写普通网址——填写你要下载图片的页面地址,直接从浏览器粘贴即可; 填写模板URL——填写要下载图片的页面URL,修改部分为通配符; 导入 URL 文件 - 支持每行一个图像 URL 的文本文件; 导入图像 URL 文件 - 支持每行一个图像 URL 的文本文件
3、填写下载的图片存放文件夹名称,如汽车、装饰等,支持自动创建图片分类目录。
4. 单击“开始获取”按钮。 抓取过程中会显示日志。 在获取过程中,您可以点击“打开图片目录”按钮查看下载的图片。 下载完成后,点击“调整大小”按钮即可调整大小。 指定尺寸
每张下载的图片都会根据网页和网页中的顺序生成一个唯一的编号。
附加说明:
A。 欢迎广大同学下载、体验、交流。 下载地址:
:8180//抓取网页图片.rar
b. 适用于百度/360/微软Bing等各大搜索引擎,新浪微博、京东、淘宝等门户电商网站,慧图网、泥图网等知名图片网站、洪动中国等进行针对性的反爬虫处理。