作者bwtalk (是黑是白)
看板Python
标题[问题] 用python做parse
时间Mon Jun 4 21:57:09 2012
之前没学过python
google到的教学文章有范例 但却不懂原理..
请问一下我今天假使要parse证交所的收盘价
http://0rz.tw/n8qLj
是要先自己分析网页的原始码 找出我要的资料在哪里
然後再parse吗?
原始码长得像这样子
http://ppt.cc/IhfX
请问该如何做parse
麻烦给点指导 谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.243.66
1F:→ mail6543210:基本上可搭配lxml,将html丢进去分析,然後用xpath娶你 06/04 22:17
2F:→ mail6543210:要的部分 06/04 22:17
3F:→ IAMPF:我都很笨的用urllib把整篇网页抓下来再抓keyword把东西切开 06/04 22:39
4F:→ gozule:我也是抓证交所的资料,可以直接抓csv的档案再parse比较简 06/04 22:55
5F:→ gozule:单,不过要花点时间hack网址:) 06/04 22:55
7F:推 cobrasgo:我跟3楼一样,懒的用工具了,反正parse起来不难 06/06 14:30
8F:推 flyakite:lxml, BeautifulSoup, Scrapy 06/23 07:58