[问题] 网路爬虫抓不到标签<img>的src属性

时间Sun Nov 11 19:03:16 2018

大家好，小鲁是个网路爬虫新手最近想来写一个下载图片的网路爬虫这里附上简短的程式码 >>> import requests, bs4 >>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924' >>> r = requests.get(url) >>> r.raise_for_status() >>> soup = bs4.BeautifulSoup(r.text) >>> img_tag = soup.find('img', id='TheImg') >>> img_tag <img border="0" id="TheImg" name="TheImg"/> 似乎抓不到src的这个属性，请问这是为什麽？图示8comic的海贼王924话图片 https://imgur.com/ccnRjKr --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.246.8.173 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1541934200.A.D4E.html

1^F：推 ckc1ark: 检测器看到的是前端处理後的DOM 可能page source没这张图 11/11 19:07

所以这样就没办法爬取这张图片的意思了嘛？我也有想过用selinium去抓抓看可是我发现网页连右键都不给点 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:10:02

2^F：→ zo6596001: 把HTML输出成一个txt档，然後检查跟Google看到的一不 11/11 19:10

3^F：→ zo6596001: 一样 11/11 19:10

4^F：→ zo6596001: 如果不一样的话，那就只能用Selenium了 11/11 19:10

我有将网页的源始码一样用requests抓下来存成txt 可是点开进去检阅，在要抓的图片的<img>标签中还是跟上面显示的结果一样都抓不到src这个属性 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:17:44

5^F：→ zo6596001: 可以Google一下Ajax这个东西，应该就是这个技术在搞鬼 11/11 19:16

刚刚google了一下有关ajax相关的爬虫内容，发现要爬取这样的内容好像有点超出我现在的能力跟时间，不过还是很感谢你让我有个简单的概念 ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 19:30:18

6^F：→ zo6596001: 其实就是网页分成2种，动态跟静态。 11/11 19:38

7^F：→ zo6596001: requests之类的只能抓静态网页 11/11 19:39

8^F：→ zo6596001: https://imgur.com/4wUewbD.jpg 11/11 20:08

9^F：→ zo6596001: 你要抓的东西好像是透过这行从伺服器抓过来的 11/11 20:09

10^F：→ zo6596001: https://imgur.com/7jHyB8J.jpg 11/11 20:11

11^F：→ zo6596001: 反白的是航海王的图档，我在requests回来的资料找不到 11/11 20:12

12^F：→ zo6596001: 这串 11/11 20:12

13^F：→ zo6596001: 还是改用Selenium吧... 11/11 20:12

谢谢你还自己帮忙测试了一遍＝＝ ※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 20:26:28

14^F：→ zo6596001: https://imgur.com/lsp28eH.jpg 11/11 20:26

15^F：推 dhec10701p: 重点是要render javascript 11/11 20:26

16^F：→ zo6596001: 偷偷贴我写的爬虫～其实Selenium也很简单的～ 11/11 20:26

17^F：→ zo6596001: 抓了几十万张图片，现在硬碟正绝赞爆满中～ 11/11 20:27

18^F：→ TakiDog: 有能力就用requests找出规则爬，seleniumu效能太QQ 11/11 21:18

※ 编辑: bugbug777 (111.246.8.173), 11/11/2018 22:31:47

19^F：推 eight0: 用 requrests + node_vm2 https://is.gd/AfRc8h 11/12 16:15

谢谢大哥，我大略的看了一下程式码，这个好像就是我需要的，哈哈只不过我还是新手，我对正规表示还不太熟悉，还有还在学习Js 程式码里面好像有关於Node.Js的东西，我会找时间再去摸索不过很感谢你提供了一个大方向给我 ※ 编辑: bugbug777 (111.246.8.173), 11/12/2018 17:55:56

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 网路爬虫抓不到标签<img>的src属性

热门看板

赞助商连结