网页显示2200多条数据,但是只采集到了其中1200条。。
采集规则名称:房天下小区均价11
采集案例的网址:http://fangjia.fang.com/pghouse-c0zh/h315-s11/
规则设置如下图所示:


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-10-16 16:28

沙发
tuesday1 初级会员 发表于 2018-10-16 11:46:45 | 只看该作者
在工作台上,把整理箱定位改到偏好class,然后采集的时候把滚屏次数设置成2。规则没有问题。但是这个翻页最多到20页,也就是说最多能爬到400条,你是怎么爬到1200条的?爬了好几次?
举报 使用道具
板凳
GYc1104 初级会员 发表于 2018-10-16 14:57:21 | 只看该作者
tuesday1 发表于 2018-10-16 11:46
在工作台上,把整理箱定位改到偏好class,然后采集的时候把滚屏次数设置成2。规则没有问题。但是这个翻页最 ...

我试一下,我是把每页的数据量改成了60条所以刚好是1200条
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-16 15:10:17 | 只看该作者
如果有翻页限制,那是网站的限制,突破不了,可以通过选择更细的筛选条件,让每一细类都不要超过20页
举报 使用道具
5#
GYc1104 初级会员 发表于 2018-10-16 16:28:49 | 只看该作者
Fuller 发表于 2018-10-16 15:10
如果有翻页限制,那是网站的限制,突破不了,可以通过选择更细的筛选条件,让每一细类都不要超过20页 ...

那我试试看,谢谢啦

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以当当商品爬虫为例
  • 网络爬虫采集列表数据
  • UMAP的min_dist参数有什么作用?
  • UMAP的n_neighbors参数有什么作用?
  • HDBSCAN的min_samples和min_cluster_size参

热门用户

GMT+8, 2026-6-26 08:22