DiiDú专业数据采集软件是一款功能强大的Edge浏览器扩展插件,它以轻巧而敏捷的代码为用户提供了强大的网页爬虫能力。
插件说明
🕷DiiDú专业数据采集软件是一款Edge浏览器扩展插件。其以轻巧敏捷的代码,塑造强大的爬虫能力,只需要一台安装Edge浏览器的电脑,即可采集各种页面上您所需的信息。
与其他爬虫软件设计理念不同的,它不仅可以分析页面原始的HTML代码,而且还支持动态加载的DOM元素,按照您预先设计的字段定义,切分组合这些网页上的数据,并储存到您的本地,最后导出成常见的Excel数据格式。它是基于Edge浏览器原生的行为设计的,因此针对异步加载页面的数据,也可以轻松采集。
✅ 使用须知
🔸目前该软件系原创,完全免费下载使用,已开设会员,对于非会员有小部分功能有限制。目前除了会员信息和支付信息外,没有收集任何您在使用该软件过程的任何数据。你在使用之前,应及时阅读相应的隐私条款。
🔸请遵守中华人民共和国相关的法律法规,不得用于非法用途。在使用本软件之前,请您务必先阅读相关的法律法规。您能够采集的,仅限于对公众开放的互联网页面信息,例如公开的招投标信息、公开的招生信息、或者公开的产品型号性能信息等。您应该清楚了解到,涉及到国家安全数据、个人身份信息、私有(封闭的)信息系统、以及有版权商业信息的采集,都可能触犯国家的法律。而因为恶意的爬虫行为造成对方服务器宕机、数据丢失或者服务异常的,则是涉嫌破坏信息安全的犯罪。
🔸本软件所采用的爬虫技术是基于浏览器正常浏览行为的模拟,如模拟页面打开、翻页、滚动、下载。该技术不涉及到站点HTTP请求数据的破解、伪造、篡改、暴力刷新等非法的手段。在使用本软件过程中,请注意合理设置使用,否则您可能会遇到服务器IP封锁,或者受到网络监管部门的监控,甚至触犯法律得不偿失。
🔸本软件自1.1.6版本起,含有会员服务。对于非会员用户,我们可能会在软件界面上增加必要的广告,或者限制部分的功能。如果您觉得反感,请主动卸载。
🔸目前该版本支持单页面的文本循环采集,二级页面文本采集,计划任务,图片屏蔽,邮件统计发送,以及采集结果的自动过滤功能。后续将支持对图片的下载,实现地图采集等诸多功能。此外,本插件程序只支持Edge浏览器,请勿尝试安装在其他浏览器上。
🔸使用本软件的前提是您需要了解一定的编程知识,如Edge浏览器的开发者模式,能够阅读并快速网页HTML标签。如果您对此完全空白,您可能需要重点阅读官网的帮助文档。如果您能够掌握一些最基础的“正则表达式”语法,相信可以给您的数据采集工作带来极大的助力。
✅ 开始使用
🔸整体流程如为:编辑规则 → 测试规则 → 编辑任务 → 执行采集 → 导出数据
🔸您需要花几分钟创建一个采集规则,或者花几秒钟导入一个采集规则。
🔸在正式采集之前,建议您先进行测试,以检查所设定的规则字段是否正常采集。若需要自动翻页的,还需要测试一下能否正常翻页。测试无误后,就可以开始进行您的数据采集工作了。
🔸如果您希望它能够每天定时自动的进行数据采集,您就需要花30秒钟定义一个计划任务,然后绑定某个采集规则。最后打开任务调度页面,花1秒钟启用任务调度开关,就可以坐等数据的自动采集。
✅ 版本变更说明
✔1.0.0 新增单页面文本采集,计划任务,调度。
✔1.1.0 新增二级页面文本采集。
✔1.1.3 新增过滤器,日志清除,数据库更新,修复已知bug。
✔1.1.4 新增采集结果替换、采集字段前后排列功能,改进前后截取的功能,修复采集运行的bug。
✔1.1.5 规则编辑加入计算公式,优化匹配能力,修复已知bug。
✔1.1.6 新增会员注册功能,会员限分级,代码保护以及修复已知的bug。
✔1.1.8 支持屏蔽图片,规则导出加密,修复登录、任务调度的bug。
✔1.1.9 新增每日邮件通知,增加代码保护,修复已知bug。
✔1.2.0 修复结果导出的bug,完善帮助文档。
✔1.2.1 增加结果和日志界面的页面链接复取功能。
✔1.2.2 优化翻页、增加调度自启动功能。
✔1.2.3 增加采集规则的计算字段的判断和随机数函数,规则字段导入更新,优化用户自定义脚本,修复已知的bug。
✔1.3.1 升级到MV3开发规范,修复已知的bug。
✔1.3.3 修复公式bug,以及用户权限错误无法导入和导出的bug,增加广告banner。
✔1.3.4 增加公式,增加批量请求文本采集功能,修复bug。
✔1.3.5 修复bug。
✔1.3.6 修复用户自定义脚本。
✔1.3.7 修复用户翻页bug。
✔1.3.8 修复用户登录会话bug,优化执行速度。
✔1.3.9 变更广告banner,修复bug。
✔1.4.1 增加滚动翻页功能,支持日志批量删除。修复bug。
插件安装说明
1、在打开的谷歌浏览器的扩展管理器
就是点击最左侧的三个点,在弹出的菜单中选择【更多工具】——【扩展程序】
或者你可以在地址栏中直接输入chrome://extensions/
2、进入扩展程序页面后将开发者模式打勾
3、最后将解压出来的crx文件拖入到浏览器中即可安装添加
4、如果出现无法添加到个人目录中的情况,可以将crx文件右键,然后选择【管理员取得所有权】,再尝试重新安装
5、安装好后即可使用

扫码关注公众号,发【识别码】获取