作者perfectkevin (No)
看板Python
标题[问题] 使用 Python 爬虫但一直会抓到重复的文字
时间Sun Apr 20 16:39:59 2025
请问各位
我使用以下的 code 想要爬一篇多页面的Review网站文字
结果是可以爬出来,但每一页的文字都会被重复爬取2~3次
造成最後爬出来的结果文字数量是超级爆炸多
想请问我的code 是哪边有问题?
谢谢各位
code分享连结:
https://ideone.com/493g7j
爬取页面:
https://reurl.cc/7K01b9
Note:
code里面的 URL 我是使用动态产生的网址变数 "initial_url"
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.21.153.61 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1745138403.A.A5A.html
1F:→ shadowjohn: 你可能要限制只抓 div class='entry' 里的所有 p 04/20 18:38