作者alubasteve (poorguy)
看板Python
标题[问题] 请问如何理解网页结构以抓资料
时间Sat Apr 27 17:29:24 2019
版上各位先进大家好
我目前正在尝试用BeautifulSoup抓资料
但我碰到一个问题
我的程式有试出来
但是我发现我不懂如何使用RSS看到网页的XML版
这样日後会造成很大的麻烦
举例来说
我首先以YAHOO测试
https://tw.info.yahoo.com/rss/
然後以奇摩股市来当真正的目标
https://tw.stock.yahoo.com/rss/url/d/e/N2.html
因为我不知道如何看到XML版的资料
(原本书上可以,但我试不出来)
所以我反而是照着书尝试出成果
https://pastebin.com/5503ppZs
所以我完全不知道第5行程式里的item怎麽来的
我也有尝试网页+F12
但是也找不到item
而且在程式的结果中
底下各个文章的标题的标签是<title>(例如第7行程式)
可是当我去看网页时
却是看到
https://imgur.com/a/MUi5Vnu
根本没有出现title
所以我想请教
如何看到网页的内容
来决定要抓网页的那个相对应标签
例如看XML档案(其他方法亦可)
不然我以後要到别的网页抓资料根本走不下去
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.161.225.194
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1556357368.A.0DD.html
1F:→ dododavid006: 你可以试着用 Python 内建的 urllib 或是如果你有 04/27 18:08
2F:→ dododavid006: request 也可以 去把你贴的那个网址抓下来後再存档 04/27 18:08
3F:→ dododavid006: 开你抓下来的档案应该就会看到 xml 了 04/27 18:09
4F:→ dododavid006: Yahoo 的网站有判断你是不是用浏览器开 如果用浏览 04/27 18:10
5F:→ dododavid006: 器开你就会看到订阅 rss 的说明 04/27 18:10
6F:→ alubasteve: 给dododavid006,多谢你的建议,我有去找资料 04/27 21:23
10F:→ alubasteve: 再者,我也想请教您如何把结果抓下来存档 04/27 21:40
12F:→ dododavid006: 至於存档也只是方便你用其它软体读而已 就只是开档 04/27 23:32
13F:→ dododavid006: 再把内容写进去而已 04/27 23:32
14F:→ dododavid006: with open("档名.xml", "wb"): 04/27 23:32
15F:→ dododavid006: with open("档名.xml", "wb") as f: # 更正 04/27 23:33
16F:→ dododavid006: f.write(urllib.request.urlopen("url").read()) 04/27 23:34
18F:→ vi000246: 用这个看就看得到xml格式了 你研究看看是什麽原因造成 04/27 23:51
19F:→ vi000246: 直接用browser跟用rss reader取回来的资料差异 04/27 23:52
20F:→ vi000246: 可能是某个表头会让response吐xml 另个表头是吐回html 04/27 23:52
21F:→ vi000246: 你直接用rss xml python requests当关键字搜寻看看 04/27 23:53
22F:→ vi000246: 喔喔 一楼有解答了 04/27 23:53
23F:→ alubasteve: 给dododavid006,感谢你的协助,我照着打你给的程式 04/28 14:07
24F:→ alubasteve: 尝试,後面就有出现一堆资料,但也因此我发现了新问题 04/28 14:08
25F:→ alubasteve: 出来的结果是网站的原始资料,所以不会出现中文名称 04/28 14:09
26F:→ alubasteve: 而且结果是连续的出来,即使我转贴到WORD而比较有结构 04/28 14:11
27F:→ alubasteve: 也依然没有中文,包含我用vi000246给的网站也是如此 04/28 14:12
28F:→ alubasteve: 请问这是否代表这才是抓资料的常态,也就是要去猜栏位 04/28 14:13
29F:→ alubasteve: 因为我原本是想要让抓取栏位资料汇出成档案 04/28 14:14
30F:→ alubasteve: 例如WORD或是EXCEL,但这在那之前我要去懂如何猜栏位 04/28 14:15
31F:→ alubasteve: 与标签之间的关系才行?请问两位先进都是怎麽做的呢? 04/28 14:16
32F:→ alubasteve: 另外我也有试着用RSS阅读器,但不知为何是这样 04/28 14:17
34F:→ alubasteve: 并没有出现档案的网页程式资料,请问我是挑错软体了吗 04/28 14:20
35F:→ alubasteve: 还是我有地方不对,也想请教大家 04/28 14:21
36F:→ alubasteve: 感谢dododavid006+vi000246,总算试出成果了 04/28 18:49
38F:→ alubasteve: 另外还可以略做调整成这样(前面已知跳过去) 04/28 18:59