请问这样市爬取的信息不全吗

kodiaxu1

任务：当当网人工智能详情页
明明采集完成 1941 条

怎么导出的数据只有1475 条，
请问原因出在哪里，怎么解决，谢谢

Fuller · 发表于 4 天前

是不是分了好几次采集、打包，把所有的数据包合成在一个表里，去重，看看总共有多少条数据

kodiaxu1 · 发表于 4 天前

导出的数据只有1475 条，我下载了在excel打开的，是第二次爬取了，有可能是什么原因呢

Fuller · 发表于 4 天前

kodiaxu1 发表于 2026-6-20 19:37
导出的数据只有1475 条，我下载了在excel打开的，是第二次爬取了，有可能是什么原因呢 ...

爬了两次，每次都是1475条？如果是这样的话，说明有些网页上没有采集到内容

Fuller · 发表于 4 天前

采集下来的原始结果放在文件夹 DataScraperWorks/当当网人工智能详情页中，如果没有执行导入，采集下来的结果是每个网页对应一个xml文件。如果已经导入了，这些文件会放在imported文件夹中。

可能有这些情况：

1. 如果执行了导入，但是在 DataScraperWorks/当当网人工智能详情页中还有xml文件，说明没有全部导入，那么就要手工把xml文件压缩成zip文件，手工导入。参看教程 https://www.gooseeker.com/doc/article-525-1.html

2. 如果没有打包漏下的xml文件，那么所有的xml文件已经存到imported里了，可以在那里数数有多少个xml文件。
3. 如果除了imported文件夹，还有一个harvestrecord文件夹，里面的zip文件就是导入失败的文件。从harvestrecord中记下文件名，退回到上级文件夹，找到这个名字的zip，重新手工导入一次。

请问这样市爬取的信息不全吗

本帖子中包含更多资源

共 4 个关于本帖的回复最后回复于 4 天前

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

请问这样市爬取的信息不全吗

本帖子中包含更多资源

共 4 个关于本帖的回复 最后回复于 4 天前

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 4 天前