Python 板


LINE

※ 引述《a199111222 (oyeh)》之铭言: : 先附上想爬的网页 : https://marketchameleon.com/Overview/AAPL/Similar/ : 想要爬取表格的全部资料 : 以前用post 抓下来的格式是json : 现在是一串乱码 : 请问这样还有办法爬吗? 要爬是能爬,但就看你要花多少时间跟成 本去处理他而已。 : 我用selenium去开这个网址,连表格内资料也不显示...... : 有大大能提供解决的方向吗?谢谢 透过开发者工具可以发现,这些资料是打 POST 请求到对方的 IIS 伺服器拿到编码 过後的资料,这个我想你应该已经取得。 如果你尝试去检查他拿到这份资料在干嘛 ,会发现这个 AJAX 操作在成功取得资料 後会呼叫以下这个函数: https://i.imgur.com/04uNmaA.png ---- 顺着这个函数找: https://i.imgur.com/wms242A.png https://i.imgur.com/dfz4jJh.png 在进行解析之前,他会检查两件事来判断 你今天是爬虫程式还是真人: (1) user_agent 是不是特殊的 (2) 有没有人为操作的事件被记录下来 其中 (2) 的判断方式是在页面上有没有 滑鼠移动操作(mousemove) ---- 最後才是解码并且将资料放入表格中: https://i.imgur.com/2Z5fcs8.png ---- 处理方式很多: (1) 去把他的函数搞出来,自己执行 (2) 模拟一下人为操作,让浏览器操作完   DOM 渲染完之後再去爬渲染好的内容 如果我是你,我会选择 (2) 这种方式, 反正你都已经用了 Selenium 去处理了, 省时省力。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.138.237.231 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1667551053.A.264.html
1F:→ Hsins: 不过看起来 xcr_json_inner() 就能解码成原来的 JSON 了11/04 16:57
2F:推 lycantrope: 佛心来着w11/04 17:08
3F:→ surimodo: 1也不是不行 但研究要解码那串11/04 17:49
4F:→ surimodo: 真的太麻烦了 他包了好几层很难解11/04 17:49
5F:→ surimodo: 最後实际解好像是 enc_dcr_xor 这个函式11/04 17:51
6F:推 a199111222: https://i.imgur.com/Hzg7sLI.jpg11/04 17:57
包含 windows 物件里面会带属性 例如 webdriver 还有检测有没有人为操作 像是我上面文章提到的 检测有没有 mousemove 一些大厂还会纪录过往的操作 是不是太过固定 还有附近 IP 的行为来判断
7F:推 cuteSquirrel: 专业推11/04 18:04
8F:→ Hsins: 大概是连文都懒得看ㄅ11/04 18:29
※ 编辑: Hsins (223.138.237.231 台湾), 11/04/2022 18:52:53
9F:推 cloki: 专业推 11/04 19:42
10F:推 yiche: 哈哈哈哈哈 还帮trace 太好心啦 11/04 19:54
11F:推 cuteSquirrel: 楼主今天超佛 11/04 20:17
12F:推 smartree: 感谢 11/05 00:44
13F:推 chang1248w: 推 11/05 02:22
14F:推 TakiDog: 哈哈 佛心给推 11/05 06:53
15F:推 a199111222: 谢谢版主专业的回覆,让我有方向,虽然我还没成功... 11/05 09:44
16F:推 a199111222: 对新手来说有点太难,需要一点时间消化,再次感谢 11/05 10:04
17F:推 a199111222: 隐藏selenium的webdriver就成功了,感谢版主 11/05 10:52
18F:推 aidansky0989: 爬虫就是要动点脑破解 11/05 17:30
19F:推 KINGWAP: 完全看呒 只能无脑推 11/05 23:38
20F:推 cmsisgod: 版上一堆高手@@ 11/06 07:24
21F:→ hackmoney: 佛心 推一个 11/08 14:28







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Gossiping站内搜寻

TOP