作者Dannybigma (可口)
看板Python
标题[问题] python爬取虾皮聊聊ID的方法
时间Tue Jul 9 16:13:43 2024
小弟超级业余
想把虾皮聊聊的客户ID都抓下来 (1500个)
原本以为只要html即可
结果只能抓到当页的html(差不多30个)
就算卷到底部也不能把所有Id抓下来
不知道各位大师有没有建议的方法 感激不尽
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.200.40.172 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1720512825.A.A01.html
1F:推 TimmyWendell: 可以描述一下你的做法和工具,不然比较难看出来有 07/12 20:34
2F:→ TimmyWendell: 什麽问题 07/12 20:34
3F:→ Dannybigma: 我做法是 直接按F12 进去复制html 07/13 01:00
4F:→ Dannybigma: 但是复制下来经过python分析只有取出30几个 07/13 01:00
5F:→ Dannybigma: 当滚轮往下不管滚多久时 也只能取出30几个ID 07/13 01:00
6F:→ Dannybigma: 目前只有想到就是一直滚一直复制(但是实在很耗时加上 07/13 01:00
7F:→ Dannybigma: 又要对有没有重复)全部加起来的ID有16000个 07/13 01:00
8F:→ Dannybigma: 实在想不出什麽其他方法,希望有大师指点一下 07/13 01:00
9F:推 TimmyWendell: 我菜居,但有兴趣可以看看selenium能不能帮到你。 07/13 07:02
10F:→ tzouandy2818: 你都写程式了 结果竟然还要手动卷+手动检查重复 07/13 23:55
11F:推 fred1541: 先查一下该网页内容CSS资料里面是怎样换到下一页 07/15 09:59
12F:→ fred1541: 有的是利用Jason 07/15 09:59
13F:→ max36067: call api….但可能会被挡 07/16 23:16
14F:→ Dannybigma: 感谢上面的前辈 我先研究一下 07/17 02:14
15F:→ tomnelson: 利用Jason → 这让我嘴角失守了 07/20 16:28
16F:→ tomnelson: Jason(X) JSON(O) 07/20 16:30
17F:→ tomnelson: 当然如果你有朋友刚好叫Jason,而且也刚好会的话,是可 07/20 16:32
18F:→ tomnelson: 以考虑问他啦! :) 07/20 16:32
19F:推 vul81320: 我就是Jason! 07/26 16:49
20F:推 KINGWAP: 可能要先研究如何对付虾皮的斧头 08/10 12:13
21F:→ KINGWAP: 不然等你这个搞定了 08/10 12:13
22F:→ KINGWAP: 一遇到的斧头就白忙了一场 08/10 12:13