WEB批踢踢

作者 chickengod (鸡大侠) 标题 Re: Selenium爬取资料出错时间 Thu Feb 11 20:20:09 2021 ─────────────────────────────────────── ※ 引述《code0093 (DADY)》之铭言： : 我要爬工商名录的资料 : 网址 : https://dmz26.moea.gov.tw/GMWeb/investigate/InvestigateFactory.aspx : 程式码贴在GitHub : https://github.com/san60708/helppppppp/blob/main/ss : 不知道为什麽我用find_elements找到资料後再用for把资料抓出来。他只会抓第一行... : 不知道哪里出错了 : 请大大协助，感谢～你需要解决网页的弹出视窗 https://i.imgur.com/cSgaX12.jpeg 不然下一次的 driver.get() 好像会因为这样被卡住然後就一直死在 exception 的 while loop 以下的程式可以在遇到 alert 弹出视窗 exception 的时候按确定 from selenium.common.exceptions import UnexpectedAlertPresentException # 此处用来取代原本的 except except UnexpectedAlertPresentException as ex: print("Exception has been thrown. " + str(ex)) alert = driver.switch_to.alert alert.accept() """ Exception has been thrown. Alert Text: None Message: unexpected alert open: {Alert text : 查无资料} """ --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.25.137.58 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1613046017.A.FB6.html ※ 编辑: chickengod (114.25.137.58 台湾), 02/12/2021 04:03:31

1^F：推 code0093: 感谢大大回覆 02/12 17:32

2^F：→ code0093: 我先测试某一页，暂且忽略跳出的方块 02/12 17:33

3^F：→ code0093: https://i.imgur.com/3dVF3Vz.jpg 02/12 17:33

4^F：→ code0093: https://i.imgur.com/m5XYIEa.jpg 02/12 17:34

5^F：→ code0093: 程式26行开始爬取资料 02/12 17:34

6^F：→ code0093: https://i.imgur.com/y83ruZK.jpg 02/12 17:34

7^F：→ code0093: 程式只爬得出第一行...然後这个页面总共683笔，他就重 02/12 17:35

8^F：→ code0093: 复爬683次 02/12 17:35

Hi 根据 selenium 文件 https://tinyurl.com/2de8zwvf find_elements_by_xpath() return "WebElement" list https://tinyurl.com/15na3djs WebElement 是一个 class 你可以使用内建的 property 比如 .text 得到文字 data = driver.find_elements_by_xpath("//div//table[@width='90%']/tbody") print(data[0].text) print(data[1].text) 类似这样 """ 工厂登记编号 630209 ... 工厂登记编号 630206 ... """ ※ 编辑: chickengod (114.25.137.58 台湾), 02/12/2021 23:22:04

9^F：推 code0093: 感谢大大。但是我现在用for单纯印出data.text是正常的 02/14 00:37

10^F：→ code0093: 但是如果data.find就又是错误的如图 02/14 00:37

11^F：→ code0093: https://i.imgur.com/EY6Ze7J.jpg 02/14 00:38

12^F：→ code0093: https://i.imgur.com/ygNAMJx.jpg 02/14 00:38

13^F：→ code0093: 如果是webelement的话那我要再更深入超多特定资料为什 02/14 00:39

14^F：→ code0093: 麽会只印出第一笔呢..还是是我电脑问题 02/14 00:39

15^F：→ code0093: 感谢大大协助 02/14 00:39

16^F：推 code0093: https://i.imgur.com/sPWoKZr.jpg 02/14 00:47

17^F：推 code0093: 我换另一种方法写就没问题了，但是我还是很疑惑为何用fo 02/14 00:49

18^F：→ code0093: r不行... 02/14 00:49

19^F：→ chickengod: 我猜可能跟这个有关？ 02/14 02:39

20^F：→ chickengod: https://i.imgur.com/DZqt27e.jpg 02/14 02:39

21^F：→ chickengod: 会根据 xpath 写法选择抓整页或者相对於元素的位置 02/14 02:39

22^F：→ chickengod: 如果都是长的像绝对路径的xpath 02/14 02:51

23^F：→ chickengod: 大概就不管目前元素在哪一律抓第一个 02/14 02:51

24^F：→ chickengod: 也许就能解释为什麽你会遇到这情况 02/14 02:51

25^F：→ chickengod: 不过我是觉得以都能达到目的来说 02/14 02:51

26^F：→ chickengod: 直接抓 .text 存下来 02/14 02:51

27^F：→ chickengod: 再一次针对全部字串处理会不会执行比较快 02/14 02:51

28^F：→ chickengod: 毕竟 selenium 还要控制一个浏览器多少会影响效能 02/14 02:51

29^F：推 code0093: 了解，感谢大大的用心回答 02/14 22:50

30^F：→ code0093: 目前我就要先抓text下来再分解字串效率确实快很多 02/14 22:51

31^F：→ chickengod: (￣▽￣) okder ~ 02/14 23:41

32^F：推 kshskghs: xpath用绝对路径较好 03/06 13:54

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

热门看板

赞助商连结

热门看板

赞助商连结