作者a6409tw (爆蝾螈)
看板Python
标题[问题]Selenium没办法爬 MOMO购物网
时间Sat Dec 8 21:51:50 2018
各位大大好
如题小弟发现MOMO购物网有使用JS渲染
所以我使用Selenium Chromedriver的Headless方式去抓取
商品品名、价格、商品网址
可是不管用什麽方式
都没办法爬下来Q
以下是我的Code
from selenium import webdriver
from bs4 import BeautifulSoup
options = webdriver.ChromeOptions()
options.add_argument('headless')
driver = webdriver.Chrome(executable_path =
r'/Users/syu/Downloads/chromedriver',chrome_options=options)
driver.get('
https://www.momoshop.com.tw/search/searchShop.jsp?keyword=adidas')
ps = driver.page_source
ps = driver.page_source
soup = BeautifulSoup(ps,'lxml')
接下来尝试用
items = driver.find_elements_by_css_selector('.prdName')
items = driver.find_elements_by_class_name('prdName')
items = soup.findAll('p',{'class':'prdName'})
怎麽抓都抓不到任何东西
已经试了一整天
也爬了很多文
但都还是找不到原因Q
真的麻烦各位大大了QQ
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.177.147
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1544277113.A.A10.html
1F:→ TakiDog: 你有看过他网页载入的顺序吗 一定要selenium的话12/09 11:51
2F:→ TakiDog: 写一下time.sleep吧 先把抓到的html导出,看好标签再找12/09 11:51
3F:→ TakiDog: requests 直接对这处理吧host../ajax/ajaxTool.jsp12/09 11:52
我加了停止时间五秒仍然抓不出来Q
Taki大是指用requests.get去抓那个页面的原始码的意思吗
4F:推 v86861062: 为什麽前面两行是proName? 应该是用prdName吧 :)12/09 12:47
已修正,真的非常感谢!
※ 编辑: a6409tw (140.112.177.147), 12/09/2018 13:20:06
※ 编辑: a6409tw (140.112.177.147), 12/09/2018 13:23:41
5F:→ TakiDog: F12看一下 post过去就可以拿到资料了 12/09 18:16