作者rexyeah (ccccccc)
看板Python
标题Re: [问题] 网路爬虫 抓不到标签<img>的src属性
时间Sun Nov 11 21:29:57 2018
不在意速度的话...
from selenium import webdriver
from bs4 import BeautifulSoup
url = '
https://v.comicbus.com/online/comic-103.html?ch=924'
browser = webdriver.PhantomJS()
browser.get(url)
html = browser.page_source
soup = BeautifulSoup(html, 'html.parser')
img_url = 'https:%s' % soup.find('img', {'id': 'TheImg'})['src']
print img_url
====
不过其实phantomjs已经deprecated了,但还是可以用。
上面那段我自己跑过,可以抓到,只是真的很慢
※ 引述《bugbug777 (sil)》之铭言:
: 大家好,小鲁是个网路爬虫新手
: 最近想来写一个下载图片的网路爬虫
: 这里附上简短的程式码
: <img border="0" id="TheImg" name="TheImg"/>
: 似乎抓不到src的这个属性,请问这是为什麽?
: 图示8comic的海贼王924话图片
: https://imgur.com/ccnRjKr
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.160.207.149
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1541943001.A.D7D.html
1F:推 bugbug777: 请问用火狐可以嘛 还是你只是随便挑一个浏览器用@@a 11/11 21:55
2F:→ rexyeah: 都可以 我只是顺手用个default headless的driver 11/11 22:06
3F:→ bugbug777: 谢谢你喔 还贴出完整的程式码 11/11 22:15
4F:→ zo6596001: 我在上一串贴的图用火狐,是因为在Linux比较好装 11/12 00:34