作者jackjenny (痛苦)
看板Python
標題[問題] google search 爬蟲
時間Sat Feb 3 06:58:45 2024
我只想在對google search 爬取文章
例如
[email protected] 有多少業者
https://imgur.com/a/kLSId6D
會對結果收集並存放到excel
一筆資料會有五個欄位
1.網域
2.完整網域
3.主標題
4.內文
5.圖片網址
對我發現一個問題
每個物件用BS4的class都是隨機亂碼,
造成不保證後續都可以用同個class去抓
我自己用了幾次 目前都是同個物件class(亂碼)沒變
但我覺得可能過幾天就會更換
Q1.請問google search 結果的html class似乎都是亂碼取名該怎應對?
Q2.class=VwiC3b yXK7lf lVm3ye r025kc hJNv6b Hdw6tb
這怎class該怎抓阿 名稱太長且中間有空格,一直抓失敗..
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.172.36.32 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1706914727.A.11D.html
※ 編輯: jackjenny (218.172.36.32 臺灣), 02/03/2024 08:44:03
1F:推 abcd: 我是沒有仔細受研究 但你可以用XPath抓抓看 我也不確定可不 02/03 14:17
2F:→ abcd: 可以 02/03 14:17
3F:推 JerryChungYC: 往下找有個 var m = {} 有存那些資訊 可以看看 02/04 02:02
4F:→ jackjenny: J大 不懂意思 找不到耶 02/04 03:45
5F:→ AndCycle: 你乖乖付錢就有api可以用, 你這樣爬很快會被擋 02/10 21:52