打数机到最后一页还一直在抓取,不停止,这个怎么解决啊?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-17 17:03

沙发
bowieD 金牌会员 发表于 2017-10-17 17:03:39 | 只看该作者
本帖最后由 bowieD 于 2017-10-17 17:04 编辑

因为记号线索的存在,爬虫会一直做翻页动作而不停止。
解决办法:
1)通过“单搜”/“集搜”采集的话,要设置DS打数机的高级菜单->勾上重复内容,这样的话,当一个页面重复采集达到3次,爬虫就会停止采集该网址,然后跳到采集下一条网址。最后,可以通过excel过滤掉重复的数据。

2)通过爬虫群采集的话,要在规则的调度中把重复内容中断选择为是。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以当当商品爬虫为例
  • 网络爬虫采集列表数据
  • UMAP的min_dist参数有什么作用?
  • UMAP的n_neighbors参数有什么作用?
  • HDBSCAN的min_samples和min_cluster_size参

热门用户

GMT+8, 2026-6-26 16:28