八爪鱼采集器是一款功能非常强大、操作容易的网页数据采集利器,界面简洁大方,能快速自动采集并导出、编辑数据,连网页图片上的文字也能解析并提取出来,采集内容广泛。
八爪鱼采集器内置可扩展的OCR接口,支持解析图片中的文字,可将图片上的文字提取出来,可以帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
八爪鱼采集器,是一款通用性网页采集软件,可视化所现即所得操作,无须编程能力,即可采集任意网页数据。并提供分布式云采集增值服务,支持高并发大存储采集。
2013年上线,10W用户使用。
常见采集场景包括QQ号码,电话号码,手机号码采集,邮箱采集,文章采集,客户资源采集,网页图片采集,淘宝买家卖家商品采集,58同城赶集百姓分类信息采集,招聘网站简历采集,与织梦DEDE,WORDPRESS,DISCUZ,完美兼容。
1、金融数据,如季报,年报,财务报告, 包括每日最新净值自动采集;
2、各大新闻门户网站实时监控,自动更新及上传最新发布的新闻;
3、监控竞争对手最新信息,包括商品价格及库存;
4、 监控各大社交网站,博客,自动抓取企业产品的相关评论;
5、 收集最新最全的职场招聘信息;
6、监控各大地产相关网站,采集新房二手房最新行情;
7、采集各大汽车网站具体的新车二手车信息;
8、发现和收集潜在客户信息;
9、 采集行业网站的产品目录及产品信息;
10、在各大电商平台之间同步商品信息,做到在一个平台发布,其他平台自动更新。
1、操作简单
完全可视化图形操作,无需专业IT人员,任何会使用电脑上网的人都可以轻松掌握。
2、云采集
采集任务自动分配到云端多台服务器同时执行,提高采集效率,可以很短的时间内 获取成千上万条信息。
3、拖拽式采集流程
模拟人的操作思维模式,可以登陆,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。
4、图文识别
内置可扩展的OCR接口,支持解析图片中的文字,可将图片上的文字提取出来。
5、定时自动采集
采集任务自动运行,可以按照指定的周期自动采集,并且还支持最快一分钟一次的实时采集。
6、2分钟快速入门
内置从入门到精通所需要的视频教程,2分钟就能上手使用,另外还有文档,论坛,qq群等。
7、免费使用
它是免费的,并且免费版本没有任何功能限制,你现在就可以试一试,立即下载安装。
1、在本站下载最新版的八爪鱼采集器安装包,双击运行;
2、可以点击【浏览】,选择软件的安装路径;或者直接点击【下一步】,软件会安装在默认的位置;
3、点击【下一步】,进行安装;
4、耐心等待;
5、软件安装完毕,点击【关闭】就可以啦。
1、启动八爪鱼采集器,需要先登录才能使用各项功能,大家直接点击【免费注册】按钮注册一个帐号;
2、进入八爪鱼软件页面后,点击【快速开始】=》【新建任务】,打开新建任务界面;
3、选择任务组(或者新建一个任务组),输入任务名字和描述=》点击下一步;
4、进到流程配置页面=》往流程设计器中拖入一个打开网页的步骤;
5、选中打开网页步骤=》输入页面URL=》点击保存;
6、接下来,我们就要配置采集规则了,首先点击软件下方网页上要采集的数据;
7、之后会出现一个选择对话框,这里选择“提取这个元素的文本”;
8、这样系统会自己添加一个“提取数据”步骤,这样,一个数据点的采集规则就设置完成,继续点击网页上的其他要采集的数据点,并且选择“提取这个元素的文本”,配置其他数据点的采集设置。所有数据点都配置完成后,修改一下每个数据点的名称,这样采集流程就配置完成了。;
9、保存之后,点击下一步=》下一步=》选择检查任务;
10、打开本地采集页面,点击启动按钮,启动本地采集,检查任务运行的效果,流程运行后采集到的数据将会在界面下方的表格中显示,从表格中的数据可以看到,我们想要的数据已经成功的采集下来。
1、问题八爪鱼采集器能采集别人的后台数据吗?
不能采集,后台数据需要有后台访问权限,正规的采集软件不会提供此类侵权服务。但您可以采集自己的后台数据。
2、问题八爪鱼能采集QQ号码、邮箱、电话号码之类的吗?
能采集,任何你在网页上能看见的数据都可以采集,八爪鱼采集器内置的规则市场中也有很多此类规则可下载,无需配置,运行规则就可以提取到这些数据。
3、怎么判断八爪鱼采集器能采集哪些信息呢?
简单来说,你能在网页上看到的信息,八爪鱼采集器均能进行采集,具体采集规则需要你自行设置或从规则市场内下载。
4、配置采集流程时,有时候左键点击一个链接,弹出选项的时候网页会自动跳转,如何避免网页自动跳转?
个别使用脚本控制跳转的网页可能会在点击左键的时候跳转, 给配置带来不便, 解决办法是使用右键单击, 左右键单击网页都会弹出选项,没有任何区别。右键点击一般可以避免自动跳转的问题。
5、八爪鱼采集器安装成功后无法启动怎么办?
如果首次安装成功后启动提示“Windows正在配置八爪鱼采集器,请稍后”,并且之后出现提示“安装时发生严重错误”,并且您的电脑上有360安全卫士等类似软件正在运行,则可能是因为360等杀毒软件错误的删除了八爪鱼运行所需要的文件,请退出360等杀毒软件,重新安装八爪鱼采集器即可。
Bug修复
解决本地采集同时运行任务数上限,有些情况下提示不对的问题。
解决采集步骤中重试时切换代理IP不生效的问题。
解决任务设置中修改了浏览器相关选项后浏览器不会自动刷新的问题。
解决启动需要代理IP的模板任务提示不对的问题。
解决触发器中设置结束循环不生效的问题。
解决自定义任务中输入网址列表,保存时不会去除空行的问题。
解决滚动一屏后7版本正常采集,8版本会漏采图片地址的问题。
解决自定义任务中有空循环列表会导致整个任务完全不采集数据的问题。
解决定时导出数据到数据库会失效的问题。
解决自定义配置中添加当前时间字段,示例数据显示错误的问题。
解决导出数据到csv文件时出现多余字段行的问题。
解决字段找不到元素时设置“该步骤所有字段留空”,采集不正确的问题。
解决任务设置中不加载图片选项不生效的问题。
解决部分Iframe网页无法采集的问题。
解决部分JSON采集出现乱码或不能采集的问题。
解决自定义配置中部分网站,点击后卡死的问题。
解决自定义配置中日期时间格式化的问题。
解决字段多次提取合并为一行,采集不正确的问题。
解决自定义配置中循环列表项显示不正确的问题。
解决采集时输入文本没有覆盖输入框已有文本的问题。