Python 板


LINE

請問各位大大 我最近在學習如何使用爬蟲程式所以我拿ptt網頁板作為練習目標 但我碰到在10則後會反覆抓取同一則貼文的title和連結的問題 https://imgur.com/a/Bnqo2B1 我猜想是網頁沒有載入新的網頁資料 但是下拉式載入的動態網頁不是只要下拉就會更新嗎 而且我看chrom driver的selenium的下拉是有在執行的,請問是什麼原因導致? 以下我的程式碼 import urllib.request as req import requests import selenium import schedule import time import json from time import sleep import json import openpyxl import random from selenium.webdriver.common.by import By from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.support import expected_conditions as EC import bs4 pttWeb = openpyxl.load_workbook('pttweb.xlsx') ws = pttWeb.active i = 1 scroll_time = int(input("scroll_Times")) options = Options() options.chrome_executable_path = "C:\chromedriver_win32\chromedriver.exe" driver = webdriver.Chrome(options = options) sleep(3) driver.get('https://www.pttweb.cc/hot/all/today') sleep(5) prev_ele = None for now_time in range(1, scroll_time+1): sleep(2) eles = driver.find_elements(by=By.CLASS_NAME,value='e7-right.ml-2') # 若串列中存在上一次的最後一個元素,則擷取上一次的最後一個元素到當前最後一 個元素進行爬取 try: # print(eles) # print(prev_ele) eles = eles[eles.index(prev_ele):] except: pass for ele in eles: try: titleInfo = ele.find_element(by=By.CLASS_NAME, value = "e7-article-default") title = titleInfo.text href = titleInfo.get_attribute('href') ws.cell(i,1,i) ws.cell(i,2,title) ws.cell(i,3,href) sleep(3) inner =req.Request(href, headers ={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36" }) with req.urlopen(inner) as innerRespomse: articleData = innerRespomse.read().decode("utf-8") articleRoot = bs4.BeautifulSoup(articleData, "html.parser") main_content = articleRoot.find("div", itemprop="articleBody") boardInfo= articleRoot.find("span", class_="e7-board-name-standalone") authorInfo = articleRoot.find("span", itemprop="name") timeInfo = articleRoot.find("time", itemprop="datePublished") countInfo = articleRoot.find_all("span", class_="e7-head-content") board = boardInfo.text author = authorInfo.text Time = timeInfo.text count = countInfo[4].text allContent = main_content.text pre_text = allContent.split('--')[0] ws.cell(i,4,board) ws.cell(i,5,author) ws.cell(i,6,Time) ws.cell(i,7,count) ws.cell(i,8,pre_text) pttWeb.save('pttweb.xlsx') sleep(random.uniform(5,20)) i = i+1 except: pass prev_ele = eles[-1] print(f"now scroll {now_time}/{scroll_time}") js = "window.scrollTo(0, document.body.scrollHeight);" driver.execute_script(js) sleep(40) driver.quit() _____________________ 先謝過各位大大了 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.79.67 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1671079197.A.34F.html
1F:→ lycantrope: 建議先改掉try-except:pass,把code貼pastebin較容易看 12/15 13:09
2F:→ GHdisf45a: 更:https://pastebin.com/cyUdWYLZ code的Pastebin 12/15 16:34
3F:→ GHdisf45a: 更:https://pastebin.com/cyUdWYLZ code的Pastebin 12/15 16:37
4F:→ surimodo: 忙猜 你class抓錯 標題不只 e7-article-default 12/16 01:28
5F:→ surimodo: 還有 e7-article-viewed 跟 e7-article-most-recently-v 12/16 01:29
6F:→ surimodo: iewed 12/16 01:30
7F:→ surimodo: 然後 try expect 不要 pass 12/16 01:31
8F:→ surimodo: 一定有跳出找不到class pass幹嘛 12/16 01:32
9F:→ surimodo: 不用除錯乾脆把try expect全刪好了 12/16 01:33
10F:→ surimodo: 寫了又pass 脫褲子放屁 12/16 01:33







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP