后羿采集器是一款操作简单的数据采集软件。该软件配置简单,采集功能强大。它可以支持所有平台的所有操作系统版本更新和功能升级。您可以一键获取各种最新信息。收集和导出是免费的,可以无限期地使用。有需要的朋友来下载。
功能介绍
1、可视化自定义采集过程
全过程问答引导、可视化操作、自定义采集流程。
网页操作顺序的自动记录和模拟。
满足更多采集需求的高级设置。
2、选择网页数据进行选择
点击鼠标,选择要爬的网页内容,操作简单。
可选择提取文本、链接、属性、html标签等。
3、批量运行数据采集
根据采集过程和抽取规则,软件自动批量采集。
采集速度和过程实时显示快速稳定。
在不打扰前台工作的情况下,可以切换软件后台运行。
4、收集的数据导出和发布
采集的数据自动表格化,字段自由配置。
支持数据导出到Excel等本地文件。
一键发布到CMS网站/数据库/微信微信官方账号等媒体。
使用方法
定制收集百度搜索结果数据的方法
一、创建收集任务
1、启动后羿收集器,进入主界面,选择自定义收集,点击创建任务按钮 “定制收集任务”;
2、URL输入百度搜索,包括三种方式。
手动输入:URL直接输入输入框,多个URL必须换行分割。
单击从文件中读取:用户选择一个存储URL的文件,文件中可以有多个URL地址,地址必须换行分割。
批量添加:通过添加和调整地址参数,生成多个有规律的地址。
二、自定义采集流程
1、点击创建后,自动打开第一个URL,然后进入自定义设置页面。默认情况下,已经创建了一个开始、打开和结束的过程块。底部模板区域用于拖动到画布中生成新的过程块;单击打开页面中的属性按钮以修改打开的网站;
2、添加输入文本流程块:将输入文本块拖到底部模板区域附近打开网页块。当出现阴影区域时,鼠标可以松开,然后自动连接并添加;
3、生成完整的流程图:模仿上面添加输入文本流程块的拖动流程,添加新块;
关键步骤块设置介绍
等待前面打开网页的时间等待。
点击输入框Xpath属性按钮,点击属性菜单中的图标选择网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的图标,然后点击网页中的百度按钮。
用于设置下一个列表页面的循环加载。在循环块内的循环条件块中设置详细条件。点击此处的操作按钮,选择单个元素,然后点击属性菜单中的xpath属性按钮,并在同一页上点击下一页按钮。默认情况下,循环次数属性按钮为0,即点击下一页的次数不受限制。
用于设置循环提取列表页面中的数据。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮,选择不固定元素列表,然后单击属性菜单中元素的xpath属性按钮,然后连续两次在网页中选择第一和第二元素。默认情况下,循环次数属性按钮为0,即列表中收集字段的数量不受限制。
点击下一页按钮,点击元素xpath属性按钮,选择使用当前循环中元素的xpath选项。
设置网页加载等待时间也是如此。
用于设置从列表页面中提取的字段规则,点击属性按钮中使用循环中的元素按钮,选择循环中的元素选项。单击元素模板属性按钮,单击字段表中的加减添加删除字段,单击选择操作添加字段,即单击加号后,鼠标移动到网页元素上单击选择。
4、点击开始收集,开始收集。
三、数据采集和导出
1、在收集任务的运行中;
2、采集完成后,选择“导出数据”本地文件可以导出所有数据;
3、选择“导出方式”,excel可以作为导出格式导出采集的数据;
4、导出数据后,如下图所示。