作者philipwen (匈牙利=Hungary)
看板Python
标题[问题] BeautifulSoup连线问题
时间Mon Jul 1 13:33:52 2019
Hi各位强者大大,小弟Python外加IT新手,最近尝试用BeautifulSoup抓取博客来书店资料(ISBN和分类),目前已经写好一个相对完整的程式但遇到一个问题。
我在程式加了一个判断式判断如果某Class存在才会继续抓取资料。但执行後发现有时候明明网页有资料的却不会去抓取。我试着把连线参数调整後抓的到,但因为要抓8万笔资料不可能让参数放得太宽。
请问如果像这样的状况我该怎麽办呢?
附上程式码请各位强者大大参考
https://tinyurl.com/y3yvqshf
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.234.54.180 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1561959237.A.DFB.html
1F:→ kenduest: 买多台 cloud 有不同 ip 分散连线抓取 07/01 13:59
2F:推 rexyeah: 不先检查status_code吗? 07/01 15:33