本帖最后由 Tairui 于 2017-5-12 20:27 编辑

以下是采集网站:
http://k.autohome.com.cn/2088/###

http://auto.cankaoxiaoxi.com/1594/koubei.html
http://auto.cankaoxiaoxi.com/2420/koubei.html
http://auto.cankaoxiaoxi.com/2834/koubei.html
http://auto.cankaoxiaoxi.com/2836/koubei.html
http://auto.cankaoxiaoxi.com/2907/koubei.html
http://auto.cankaoxiaoxi.com/2929/koubei.html
http://auto.cankaoxiaoxi.com/2971/koubei.html
http://auto.cankaoxiaoxi.com/3661/koubei.html
http://auto.cankaoxiaoxi.com/3772/koubei.html
http://auto.cankaoxiaoxi.com/3806/koubei.html
http://auto.cankaoxiaoxi.com/3875/koubei.html
http://auto.cankaoxiaoxi.com/4176/koubei.html
http://auto.cankaoxiaoxi.com/4191/koubei.html

采集内容标注如图,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-5-12 20:29

沙发
Fuller 管理员 发表于 2017-5-12 19:55:21 | 只看该作者
汽车之家好像采用什么特殊技术,采集的时候漏字。需要专门定制程序才能解决这个问题
举报 使用道具
板凳
Tairui 新手上路 发表于 2017-5-12 20:29:23 | 只看该作者
貌似采用了反爬虫技术,很多数据爬到的都是空的,无赖,毕业论急用,还要做数据分析,
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • LDA主题分析模型到底是什么?
  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别

热门用户

GMT+8, 2026-4-9 19:25