集搜客怎样爬取同一网站上不同网页上的内容?这些网页结构类似。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-29 14:58

沙发
xandy 论坛元老 发表于 2017-3-29 14:10:31 | 只看该作者
举报 使用道具
板凳
南桥几经秋 新手上路 发表于 2017-3-29 14:38:58 | 只看该作者
xandy 发表于 2017-3-29 14:10
参考教程:《怎么在同一个主题名下建立多个规则》

那如果爬取的网页数量很多呢,类似于爬职位招聘信息的那种?谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-29 14:51:11 | 只看该作者
南桥几经秋 发表于 2017-3-29 14:38
那如果爬取的网页数量很多呢,类似于爬职位招聘信息的那种?谢谢!

首先,你应该想办法用一个抓取规则就能抓取所有网页,这样是最省事的。把其他网址加入这个规则的方法是在会员中心里面做。参看《如何管理规则的线索

你先用一个规则做实验,如果遇到DS打数机报告说超时,那就是这个规则的适应性不够,再调整。
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-29 14:52:54 | 只看该作者
如果有失败的,按照这个教程《加载和分析失败线索》,就能看到在哪个字段失败了,想办法微调规则,比如定位偏好,让适应性更高。

如果遇到解决不了的问题,就发帖问
举报 使用道具
6#
南桥几经秋 新手上路 发表于 2017-3-29 14:58:28 | 只看该作者
Fuller 发表于 2017-3-29 14:52
如果有失败的,按照这个教程《加载和分析失败线索》,就能看到在哪个字段失败了,想办法微调规则,比如定位 ...

好,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以当当商品爬虫为例
  • 网络爬虫采集列表数据
  • UMAP的min_dist参数有什么作用?
  • UMAP的n_neighbors参数有什么作用?
  • HDBSCAN的min_samples和min_cluster_size参

热门用户

GMT+8, 2026-6-26 03:22