作者jimmy5104 (吉米儿)
看板Python
标题[问题] aspx爬虫翻页问题
时间Thu Dec 13 11:00:42 2018
https://www.mittw.org.tw/products/manufacturer.aspx
想要将这个网页的公司名称爬虫下来,但发现有翻页问题
已经在stackoverflow等等网站找寻资讯,还是无法解决,
想请问各位py神有没有方法可以解决这个问题。
以下是程式码
from bs4 import BeautifulSoup
import requests
url = '
https://www.mittw.org.tw/products/manufacturer.aspx'
url_get = requests.get(url)
soup = BeautifulSoup(url_get.content, 'lxml')
col = soup.find_all('div',{'class': "name"})
for ix in col:
print(ix.get_text())
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.117.248.4
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1544670049.A.FB6.html
1F:→ CodingMan: Selenium 12/13 11:17
3F:→ cody880528: ASP都比较麻烦一点 12/13 12:18
4F:→ jimmy5104: 谢谢cody880528你的code可以顺利爬下来但是我有的看不 12/13 13:13
5F:→ jimmy5104: 懂其中的含意可以帮我解释一下吗? 另一个问题就是假如 12/13 13:13
6F:→ jimmy5104: 说main()爬取下来後怎麽将他也顺利写入csv挡 12/13 13:13
7F:推 jason860421: 开开发者工具看网页做了什麽就知道了 12/13 15:30
8F:→ jimmy5104: aspx背後程式码有点看不懂cody打在def里面有几个网页 12/13 16:53
9F:→ jimmy5104: 原始档的code不知道为什麽是这样打我比较想知道原因为 12/13 16:53
10F:→ jimmy5104: 什麽是挑选那几个下去原始码後就可以翻页爬虫 12/13 16:53