1521#
Fuller 管理员 发表于 2026-3-18 09:56:34 | 只看该作者
L_PBF33 发表于 2026-3-17 19:24
好的,我只有最后一个问题,最多可以采集多少页?

对页数没有限制,看网页上有多少页。据我们的观察,对超话网页来说,几十页之后,网页上的内容大多是重复的。你可以手工翻一翻微博网页,查证一下。
举报 使用道具
1522#
lunana12138 中级会员 发表于 6 天前 | 只看该作者
爬取微博主页,有很多重复的数据,请问这个怎么解决呀?
举报 使用道具
1523#
lunana12138 中级会员 发表于 6 天前 | 只看该作者
爬取微博主页博文,有很多重复的数据,请问这个怎么解决呀?
举报 使用道具
1524#
Fuller 管理员 发表于 6 天前 | 只看该作者
lunana12138 发表于 2026-3-30 16:46
爬取微博主页博文,有很多重复的数据,请问这个怎么解决呀?

博主主页采集工具,有数据清洗,应该没有重复,你把原始数据包发出来看看,或者加用户群472442022,发给群里的管理员。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • top2vec话题发现原理和使用方法
  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简

热门用户

GMT+8, 2026-4-5 17:27