作者garlic774 (蒜头)
看板Python
标题[问题] 爬资讯无法爬全部
时间Sat Oct 2 13:44:25 2021
各位30cm D罩杯水水 大大午安,可以请教以下哪里写错吗? 只爬到前3个资讯
in
!pip install Selenium
from selenium import webdriver
browser = webdriver.Chrome(executable_path='./chromedriver.exe')
browser.get("
https://shopee.tw/shop/10228173/search?page=0&sortBy=ctime")
source = browser.page_source
import time
import requests
from bs4 import BeautifulSoup
soup = BeautifulSoup(source)
links = []
for b in soup.find_all(class_="shop-search-result-view__item col-xs-2-4"):
links.append(b.a['href'])
links
products =[]
for b in links[:3]:
link = f'
https://shopee.tw/{b}'
browser.get(link)
time.sleep(5)
soup = BeautifulSoup(browser.page_source)
soup
product = {}
product['商品名称'] = soup.find('div',class_="attM6y").span.text
product['价钱'] = soup.find('div',class_="Ybrg9j").text
products.append(product)
products
out:
{'商品名称': '明基 双钢印 幸福物语4D医疗口罩 (太空灰) 10入 (单片装 台湾制 立体
口罩 鱼型口罩 韩国KF94) 专品药局',
'价钱': '$199'},
{'商品名称': '明基 双钢印 幸福物语4D医疗口罩 (静谧蓝) 10入 (单片装 台湾制 立
体口罩 鱼型口罩 韩国KF94) 专品药局',
'价钱': '$199'},
{'商品名称': '明基 双钢印 幸福物语4D医疗口罩 (仙踪绿) 10入 (单片装 台湾制 立
体口罩 鱼型口罩 韩国KF94) 专品药局',
'价钱': '$199'}]
请问哪边还可以修正呢? 目的是想要爬取改页面所有商品的商品名称以及价钱的资讯,
谢谢各位
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.226.131.58 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1633153467.A.830.html
1F:推 lycantrope: 看不懂,你写for b in links[:3]: 不就只能爬3个? 10/02 14:36
2F:推 yuuyuuhuu: 同上 你只抓到links的前三个 当然只有三个资讯 10/02 14:45
3F:→ garlic774: orz 明白了 XDDD 谢谢 10/02 14:48
4F:推 g919233: 顺便说不使用浏览器的方式: 10/03 06:03
6F:→ garlic774: 谢谢 长了好多知识!!! 10/03 19:13
7F:推 oxalip: ce c c 10/16 20:23