作者jackjenny (痛苦)
看板Python
标题[问题] google search 爬虫
时间Sat Feb 3 06:58:45 2024
我只想在对google search 爬取文章
例如
[email protected] 有多少业者
https://imgur.com/a/kLSId6D
会对结果收集并存放到excel
一笔资料会有五个栏位
1.网域
2.完整网域
3.主标题
4.内文
5.图片网址
对我发现一个问题
每个物件用BS4的class都是随机乱码,
造成不保证後续都可以用同个class去抓
我自己用了几次 目前都是同个物件class(乱码)没变
但我觉得可能过几天就会更换
Q1.请问google search 结果的html class似乎都是乱码取名该怎应对?
Q2.class=VwiC3b yXK7lf lVm3ye r025kc hJNv6b Hdw6tb
这怎class该怎抓阿 名称太长且中间有空格,一直抓失败..
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 218.172.36.32 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1706914727.A.11D.html
※ 编辑: jackjenny (218.172.36.32 台湾), 02/03/2024 08:44:03
1F:推 abcd: 我是没有仔细受研究 但你可以用XPath抓抓看 我也不确定可不 02/03 14:17
2F:→ abcd: 可以 02/03 14:17
3F:推 JerryChungYC: 往下找有个 var m = {} 有存那些资讯 可以看看 02/04 02:02
4F:→ jackjenny: J大 不懂意思 找不到耶 02/04 03:45
5F:→ AndCycle: 你乖乖付钱就有api可以用, 你这样爬很快会被挡 02/10 21:52