作者Dannybigma (可口)
看板Python
標題[問題] python爬取蝦皮聊聊ID的方法
時間Tue Jul 9 16:13:43 2024
小弟超級業餘
想把蝦皮聊聊的客戶ID都抓下來 (1500個)
原本以為只要html即可
結果只能抓到當頁的html(差不多30個)
就算捲到底部也不能把所有Id抓下來
不知道各位大師有沒有建議的方法 感激不盡
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.40.172 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1720512825.A.A01.html
1F:推 TimmyWendell: 可以描述一下你的做法和工具,不然比較難看出來有 07/12 20:34
2F:→ TimmyWendell: 什麼問題 07/12 20:34
3F:→ Dannybigma: 我做法是 直接按F12 進去複製html 07/13 01:00
4F:→ Dannybigma: 但是複製下來經過python分析只有取出30幾個 07/13 01:00
5F:→ Dannybigma: 當滾輪往下不管滾多久時 也只能取出30幾個ID 07/13 01:00
6F:→ Dannybigma: 目前只有想到就是一直滾一直複製(但是實在很耗時加上 07/13 01:00
7F:→ Dannybigma: 又要對有沒有重複)全部加起來的ID有16000個 07/13 01:00
8F:→ Dannybigma: 實在想不出什麼其他方法,希望有大師指點一下 07/13 01:00
9F:推 TimmyWendell: 我菜居,但有興趣可以看看selenium能不能幫到你。 07/13 07:02
10F:→ tzouandy2818: 你都寫程式了 結果竟然還要手動捲+手動檢查重複 07/13 23:55
11F:推 fred1541: 先查一下該網頁內容CSS資料裡面是怎樣換到下一頁 07/15 09:59
12F:→ fred1541: 有的是利用Jason 07/15 09:59
13F:→ max36067: call api….但可能會被擋 07/16 23:16
14F:→ Dannybigma: 感謝上面的前輩 我先研究一下 07/17 02:14
15F:→ tomnelson: 利用Jason → 這讓我嘴角失守了 07/20 16:28
16F:→ tomnelson: Jason(X) JSON(O) 07/20 16:30
17F:→ tomnelson: 當然如果你有朋友剛好叫Jason,而且也剛好會的話,是可 07/20 16:32
18F:→ tomnelson: 以考慮問他啦! :) 07/20 16:32
19F:推 vul81320: 我就是Jason! 07/26 16:49
20F:推 KINGWAP: 可能要先研究如何對付蝦皮的斧頭 08/10 12:13
21F:→ KINGWAP: 不然等你這個搞定了 08/10 12:13
22F:→ KINGWAP: 一遇到的斧頭就白忙了一場 08/10 12:13