任务:当当网人工智能详情页
明明采集完成  1941 条

怎么导出的数据只有1475 条,
请问原因出在哪里,怎么解决,谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 4 天前

沙发
Fuller 管理员 发表于 4 天前 | 只看该作者
是不是分了好几次采集、打包,把所有的数据包合成在一个表里,去重,看看总共有多少条数据
举报 使用道具
板凳
kodiaxu1 中级会员 发表于 4 天前 | 只看该作者
导出的数据只有1475 条,我下载了在excel打开的,是第二次爬取了,有可能是什么原因呢
举报 使用道具
地板
Fuller 管理员 发表于 4 天前 | 只看该作者
kodiaxu1 发表于 2026-6-20 19:37
导出的数据只有1475 条,我下载了在excel打开的,是第二次爬取了,有可能是什么原因呢 ...

爬了两次,每次都是1475条?如果是这样的话,说明有些网页上没有采集到内容
举报 使用道具
5#
Fuller 管理员 发表于 4 天前 | 只看该作者
采集下来的原始结果放在文件夹 DataScraperWorks/当当网人工智能详情页 中,如果没有执行导入,采集下来的结果是每个网页对应一个xml文件。如果已经导入了,这些文件会放在imported文件夹中。

可能有这些情况:

1. 如果执行了导入,但是在 DataScraperWorks/当当网人工智能详情页 中还有xml文件,说明没有全部导入,那么就要手工把xml文件压缩成zip文件,手工导入。参看 教程 https://www.gooseeker.com/doc/article-525-1.html

2. 如果没有打包漏下的xml文件,那么所有的xml文件已经存到imported里了,可以在那里数数有多少个xml文件。
3. 如果除了imported文件夹,还有一个harvestrecord文件夹,里面的zip文件就是导入失败的文件。从harvestrecord中记下文件名,退回到上级文件夹,找到这个名字的zip,重新手工导入一次。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以当当商品爬虫为例
  • 网络爬虫采集列表数据
  • UMAP的min_dist参数有什么作用?
  • UMAP的n_neighbors参数有什么作用?
  • HDBSCAN的min_samples和min_cluster_size参

热门用户

GMT+8, 2026-6-24 11:00