Python 板


LINE

大家好,小鲁是个网路爬虫新手 最近想来写一个下载图片的网路爬虫 这里附上简短的程式码 >>> import requests, bs4 >>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924' >>> r = requests.get(url) >>> r.raise_for_status() >>> soup = bs4.BeautifulSoup(r.text) >>> img_tag = soup.find('img', id='TheImg') >>> img_tag <img border="0" id="TheImg" name="TheImg"/> 似乎抓不到src的这个属性,请问这是为什麽? 图示8comic的海贼王924话图片 https://imgur.com/ccnRjKr --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.246.8.173
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1541934200.A.D4E.html
1F:推 ckc1ark: 检测器看到的是前端处理後的DOM 可能page source没这张图 11/11 19:07
所以这样就没办法爬取这张图片的意思了嘛? 我也有想过用selinium去抓抓看 可是我发现网页连右键都不给点 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:10:02
2F:→ zo6596001: 把HTML输出成一个txt档,然後检查跟Google看到的一不 11/11 19:10
3F:→ zo6596001: 一样 11/11 19:10
4F:→ zo6596001: 如果不一样的话,那就只能用Selenium了 11/11 19:10
我有将网页的源始码一样用requests抓下来存成txt 可是点开进去检阅,在要抓的图片的<img>标签中 还是跟上面显示的结果一样都抓不到src这个属性 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:17:44
5F:→ zo6596001: 可以Google一下Ajax这个东西,应该就是这个技术在搞鬼 11/11 19:16
刚刚google了一下有关ajax相关的爬虫内容,发现要爬取这样的内容 好像有点超出我现在的能力跟时间,不过还是很感谢你让我有个简单的概念 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:30:18
6F:→ zo6596001: 其实就是网页分成2种,动态跟静态。 11/11 19:38
7F:→ zo6596001: requests之类的只能抓静态网页 11/11 19:39
8F:→ zo6596001: https://imgur.com/4wUewbD.jpg 11/11 20:08
9F:→ zo6596001: 你要抓的东西好像是透过这行从伺服器抓过来的 11/11 20:09
10F:→ zo6596001: https://imgur.com/7jHyB8J.jpg 11/11 20:11
11F:→ zo6596001: 反白的是航海王的图档,我在requests回来的资料找不到 11/11 20:12
12F:→ zo6596001: 这串 11/11 20:12
13F:→ zo6596001: 还是改用Selenium吧... 11/11 20:12
谢谢你还自己帮忙测试了一遍= = ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 20:26:28
14F:→ zo6596001: https://imgur.com/lsp28eH.jpg 11/11 20:26
15F:推 dhec10701p: 重点是要render javascript 11/11 20:26
16F:→ zo6596001: 偷偷贴我写的爬虫~ 其实Selenium也很简单的~ 11/11 20:26
17F:→ zo6596001: 抓了几十万张图片,现在硬碟正绝赞爆满中~ 11/11 20:27
18F:→ TakiDog: 有能力就用requests找出规则爬,seleniumu效能太QQ 11/11 21:18
※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 22:31:47
19F:推 eight0: 用 requrests + node_vm2 https://is.gd/AfRc8h 11/12 16:15
谢谢大哥,我大略的看了一下程式码,这个好像就是我需要的,哈哈 只不过我还是新手,我对正规表示还不太熟悉,还有还在学习Js 程式码里面好像有关於Node.Js的东西,我会找时间再去摸索 不过很感谢你提供了一个大方向给我 ※ 编辑: bugbug777 (111.246.8.173), 11/12/2018 17:55:56







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Gossiping站内搜寻

TOP