请问翻页采集数据的时候中途停止,日志显示定位到重复内容动作中断应该怎么办呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2019-3-12 20:58

沙发
Fuller 管理员 发表于 2019-3-10 21:48:05 | 只看该作者
这种是你设置的参数不合适,DS打数机的菜单 高级-》终点标志-》重复内容。 不勾他们,就不会中断
举报 使用道具
板凳
Fuller 管理员 发表于 2019-3-10 21:48:32 | 只看该作者
如果翻页到最后总是重复采集最后一页,那么就要勾上了
举报 使用道具
地板
杜若 初级会员 发表于 2019-3-10 22:06:59 | 只看该作者
我觉得它好像一直在重复采集同一页,采集到几百页之后就翻不过去了,不勾重复内容就一直在重复采集
举报 使用道具
5#
杜若 初级会员 发表于 2019-3-10 22:07:24 | 只看该作者
Fuller 发表于 2019-3-10 21:48
如果翻页到最后总是重复采集最后一页,那么就要勾上了

我觉得它好像一直在重复采集同一页,采集到几百页之后就翻不过去了,不勾重复内容就一直在重复采集
举报 使用道具
6#
Fuller 管理员 发表于 2019-3-11 09:20:11 | 只看该作者
如果总是重复第一页,就不对了
举报 使用道具
7#
Fuller 管理员 发表于 2019-3-11 09:20:24 | 只看该作者
是第一页重复还是最后一页重复?
举报 使用道具
8#
Fuller 管理员 发表于 2019-3-11 09:43:47 | 只看该作者
我运行了你的规则,很好,是不是到最后一页一直重复?那就要勾上重复内容中断
举报 使用道具
9#
杜若 初级会员 发表于 2019-3-11 09:43:47 | 只看该作者
Fuller 发表于 2019-3-11 09:20
是第一页重复还是最后一页重复?

是中间页重复,一共有一千多页,第一次打到300多页的时候就开始重复了,第二次没有勾选重复内容,打到200多页就开始重复
举报 使用道具
10#
Fuller 管理员 发表于 2019-3-11 09:51:35 | 只看该作者
杜若 发表于 2019-3-11 09:43
是中间页重复,一共有一千多页,第一次打到300多页的时候就开始重复了,第二次没有勾选重复内容,打到200 ...

我还没有运行到那么多,说不定是网站不让翻页了,就像天猫,100页后看不到了,京东100页评论后,就一直重复了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以当当商品爬虫为例
  • 网络爬虫采集列表数据
  • UMAP的min_dist参数有什么作用?
  • UMAP的n_neighbors参数有什么作用?
  • HDBSCAN的min_samples和min_cluster_size参

热门用户

GMT+8, 2026-6-26 04:59