Python 板


LINE

各位大大好,遇到一个铁板, 可能跟程式语言比较没关系, 专案需要定期抓莱尔富的全部所有门市, 找到其官网门市查询所在位置, https://www.hilife.com.tw/storeInquiry_street.aspx 大约看一下网页原码, 应该是ASP.Net & WebForm无误, GET跟POST都是这一支, 所以逻辑思路如下: 方法1: 先用GET不带参数发出Request, 取得回传网页後,剖析取出 __VIEWSTATEGENERATOR __EVENTVALIDATION __VIEWSTATE __EVENTTARGET __EVENTARGUMENT __LASTFOCUS 等等数值, 然後塞入POST内, 再填入自订的县市CITY与乡区AREA後, 发出Request, 台北市全区没问题, 都可以取得门市资料, 但诡异的是: 其他县市与乡区却直接拒绝连结.....!!?? 试用方法2 先用GET取得__VIEWSTATE值之後, 再发出台北市中山区的POST, 得到正常回传结果後再取一次全部__VIEWSTATE值, 然後再塞入,填上新北市林口区再发出POST, .....一样失败,拒绝连结! 试用方法3 把GET取得__VIEWSTATE值, 手工写入静态HTML网页内的FORM input内, 指定云林县虎尾镇 然後按submit post出去, .........成功正常回传 感觉有点崩溃,没头绪.... 猜想因为台北市是default页, 所以没有设检查, 不了解ASP.Net的後端作法, 有大大可以提供解法建议吗? 感恩~ --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 119.14.24.108 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1589018306.A.D26.html ※ 编辑: somehog (119.14.24.108 台湾), 05/09/2020 18:03:36
1F:→ mirror0227: 这时候应该要看你打成功的跟打失败的差别吧 05/09 18:19
如果是方法1的话,差别就只是填入台北市跟其他县市不同,其他参数完全相同
2F:推 aidansky0989: 我昨天爬ubereats是用cookie,里面有QLoc之类的cook 05/09 18:21
3F:→ aidansky0989: ies,ˊ真的没想法从网址下手也可 05/09 18:21
4F:→ aidansky0989: 不过爬虫本来就要花时间摸网页结构,直接开selenium 05/09 18:24
5F:→ aidansky0989: 万解也可 05/09 18:24
也有怀疑cookie的嫌疑...只好用selenium 硬破了 还真想知道凶手是谁呀
6F:推 goldflower: 想研究倒店与位置的关联性吗 05/09 20:16
7F:→ s860134: 有写过网页了解前後端架构对爬虫也会有帮助 05/09 21:40
※ 编辑: somehog (119.14.24.108 台湾), 05/09/2020 22:53:34 ※ 编辑: somehog (119.14.24.108 台湾), 05/09/2020 22:57:13
8F:推 TakiDog: 我很讨厌这种架构 不用Selenium也能解 05/09 23:34
9F:→ TakiDog: 我是把这种网页当用後端渲染前端XDDD 05/09 23:35
10F:→ TakiDog: 你要注意到 要跳县市 __EVENTTARGET 是要是 CITY 05/09 23:36
11F:→ TakiDog: 每一个request 都要接着上个request中的hidden form 05/09 23:37
12F:→ TakiDog: 只要有一个环节错 就炸掉了 05/09 23:38
__EVENTTARGET确认填入CITY无误, 方法2就是取第一次POST台北市後得到的FORM内所有 栏值再套入一个新的POST基隆市...然後就GG了 ※ 编辑: somehog (119.14.24.108 台湾), 05/09/2020 23:41:09
13F:→ TakiDog: 我写一个看看 05/09 23:44
14F:→ somehog: 期待T大抓到真凶 05/09 23:51
15F:推 TakiDog: 回你了在板上,之前做过类似的,而且还是一个请假系统... 05/10 00:08
16F:→ TakiDog: 每请一节课要1个封包XD 05/10 00:08
17F:推 vi000246: 我先不看回覆猜一下 每次选择县市dropdown 05/10 10:41
18F:→ vi000246: 都会重新刷新网页,所以viewState等参数,也要重新取得 05/10 10:41
19F:→ vi000246: 需要分析各县市 对於html隐藏参数的影响 05/10 10:42
20F:→ vi000246: 我选择县市dropdown 不会有新的cookie 应该跟cookie无关 05/10 10:43
21F:推 vi000246: 看起来__VIEWSTATE跟__EVENTVALIDATION都会随着更换县市 05/10 10:48
22F:→ vi000246: 而跟着更换,所以要研究一下如何取得新的隐藏栏位值 05/10 10:48
23F:→ TakiDog: hidden我没看莱尔富这的,之前做过的是XML然後是没办法 05/10 12:22
24F:→ TakiDog: 靠自己生产出来的,如果能自己生产出来就能跳页爬了 05/10 12:22







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP