找回密码
 立即注册
查看: 306|回复: 4

神器!小白也能用的免费网络爬虫软件

[复制链接]
发表于 2022-2-19 15:15 | 显示全部楼层 |阅读模式
说起爬虫,对于不熟悉编程的同学来说总有一丝神秘感,觉得离我们很远,其实爬虫的应用非常广泛,从搜索引擎,到抢票软件,这背后是网络爬虫的功劳。

今天老Y给大家推荐一款功能非常强大的网络爬虫软件,它的操作非常简单,适合小白,而且良心的是,免费功能足够使用

它可以抓取涉及电商行业、新闻媒体、企业信息、生活服务、房源、休闲旅游等各类信息。

比如你可以抓取淘宝上某类商品的全部信息(图片、价格、店铺名称、月销量、累计评价……)





比如所你可以抓取大众点评上你的城市所有自助餐厅的信息(地址、价格、评价……)





比如你可以抓取马蜂窝上所有泰国自由行的信息(攻略标题、阅读数、收藏量、攻略内容……)





……


是不是非常有趣?

更厉害的是!官网提供了大量的实战教程(文字版+视频版),也可以进行教程的搜索,对于小白选手来说,真是太棒了!



  后羿采集器 (http://www.houyicaiji.com)
下面,我们就以抓取马蜂窝上所有泰国自由行的信息为例,实际操作一下:
1、下载软件安装注册登录后,复制马蜂窝泰国自由行旅行攻略的网页。



2、新建智能模式采集任务
也可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。




3、设置提取数据字段
智能模式下,输入网址后软件即可自动识别出页面上的数据并生成采集结果,每一类数据对应一个采集字段,可以右击修改字段名称、增减字段、处理数据等。



比如需要采集攻略的攻略标题、攻略链接、阅读量、体验人数以及封面图等信息,设置效果如下



4、提取详情页数据
列表页上有泰国自由行攻略的部分信息,我们需要攻略的具体内容,右击攻略链接使用“深入采集”功能,跳转到详情页进行采集。




在详情页面可以看到攻略的详细内容、评论数等信息,还可以看到非常多的图片,如果一 一设置字段,会非常多,而且每篇的图片位置不同,所以可以添加一个特殊字段,“页面PDF”。



5、设置采集任务
点击“设置”按钮,可以进行运行设置和防屏蔽设置,这里我们勾选“跳过继续采集”,设置“5”秒请求等待时间,勾选“不加载网页图片”,防屏蔽设置默认设置,点击保存。



6、开始采集
点击“保存并启动”按钮,弹出一些高级设置,直接点击“启动”运行工具。



7、提取数据
任务启动之后开始自动采集数据,可以直观的看到程序运行过程和采集结果,采集结束之后有提醒。



8、导出数据
数据采集完成后,可以查看和导出数据,软件支持多种导出方式和导出文件的格式(EXCEL、CSV、HTML和TXT),选择自己需要方式和文件类型,点击“确认导出”。



好了,上面是一个简单的例子。看完之后,是不是发现,原来爬虫爬取数据也可以这么简单!有兴趣的小伙伴快去试试吧。
这里就不放下载地址了,感兴趣的可以去官网下载,非常贴心的提供了三个版本。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
发表于 2022-2-19 15:16 | 显示全部楼层
可以下载网页的附件吗
发表于 2022-2-19 15:24 | 显示全部楼层
可惜大部分都是收费
发表于 2022-2-19 15:27 | 显示全部楼层
最难用的数据采集器 ,网页推荐后羿!!!!客户端和公众号我还没找到好用的,我打算直接买数据了
发表于 2022-2-19 15:29 | 显示全部楼层
怎么收费的?
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Unity开发者联盟 ( 粤ICP备20003399号 )

GMT+8, 2024-6-8 08:31 , Processed in 0.119096 second(s), 26 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表