Python 板


LINE

各位大大安 最近在练习爬电商网站的商品资讯 目标网站是yahoo, pchome, momo 现在我已经可以爬yahoo跟pchome 最近在爬momo 发现momo好像有做反爬 试了好几天 一直爬不下来 说明我试过的方法 ____________________________________________ 从network那里试着找有没有api可以发request → 发现是用 post 的方式,带params跟form_data params有两个 n 跟 t n = 2002、2018 等等,先假设这个值固定 t 是utc+8 int 时间戳记 (ex:1546461729893) 之後encode utf-8 再贴在 url + "?" + 後面 form_data 直接照着发 然後 header的部分也有加 user-agent 试过用 requests.post 跟urllib.request.urlopen(request, data=form_data) 可是抓回来的都是一堆空白跟换行 没办法抓到json资料 不知是我有遗漏的地方 还是momo自己有做一些反爬机制让bot抓不到资料 ____________________ 於是尝试第二种方式 webDriver 因为我是在云端linux ubuntu 16.04上面跑爬虫 所以环境设定的部分其实不太会用 尽力使用了selenium + firefox + geckodriver 却发现当我把目标网址丢进某个list里面foreach去跑driver.get(url) 回圈跑个两三次就停住了 不断修改测试後仍然失败 现在连要发request去抓准备丢进list里面的url都直接Message: connection refused 程式码大概像这样:: options = Options() options.headless = True options.set_capability("marionette", False) driver = webdriver.Firefox(options=options, executable_path='/home/ubuntu/geckodriver') driver.set_page_load_timeout(20) driver.set_script_timeout(20) i = 1 for url in web_drive_urls: str = "https://www.momoshop.com.tw" + url print(str) driver.get(str) #time.sleep(5) print(i) i+=1 不知是否有好方法能成功爬取momo的商品资料? 理想上我希望可以用第一种方式直接得到json 不然就只好暂时放弃爬momo 谢谢大大们指点 补上我想抓的商品页范例: https://www.momoshop.com.tw/category/DgrpCategory.jsp?d_code=1106700047 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.246.168.39
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1546463785.A.6C8.html ※ 编辑: rodyforeter (27.246.168.39), 01/03/2019 05:44:52
1F:推 HenryLiKing: 你是不是接了 某个 Case XD 01/03 07:30
2F:推 jasonfghx: WOW 01/03 08:18
3F:→ rodyforeter: 我这一看就超新手啊 1F太看得起我了XD 01/03 12:42
4F:推 jasonfghx: 你要做什麽功能要不要说说看 我试试我的 01/03 14:25
5F:推 vi000246: 用fiddler看看他传出去的封包跟你发送的有没有差别 01/03 16:16
6F:→ rodyforeter: 抓一些商品资讯 01/04 10:28
7F:→ rodyforeter: fiddler抓https好像要另外设定 但我後来发现在robots 01/04 10:29
8F:→ rodyforeter: .txt 里面disallow对内部api的爬取 01/04 10:30
9F:→ rodyforeter: 所以现在应该会改为用web driver 虽然很慢又不稳.. 01/04 10:31
10F:→ rodyforeter: 谢谢提供使用fiddler的方式抓封包 01/04 10:43
https://imgur.com/a/24OpIDl 遇到这个问题 selenium.common.exceptions.WebDriverException: Message: Failed to decode response from marionette Code https://imgur.com/a/yyRXPg4 ※ 编辑: rodyforeter (36.229.82.253), 01/04/2019 11:22:38
11F:→ jasonfghx: 不用github表达? 01/04 17:39
12F:推 Neisseria: 可以用 GitHub Gist 01/04 17:54







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP