作者einstein328 (pica)
看板Python
标题[问题] 网路爬虫
时间Tue Aug 3 21:38:27 2010
hay, 我最近试着想写一个爬虫, 能抓下面网站的所有资料
http://mops.twse.com.tw/mops/web/index
---------------------------------------
我先把问题简化成抓某一个特定网页, 如下
http://mops.twse.com.tw/mops/web/t05st31
我发现一些问题,
我在 [公司代号或简称] 输入不同的数字, 例如 : 2041 或是 2043,
在按搜寻, 并检视其网页原始档, 找不到相对应的资料出现.
这是为什麽阿??
p.s 我略懂python, 但网页技术, 还未熟悉, 问太蠢的话请见谅.
p.p.s 我打算用 Scrapy, 来写爬虫, 请前辈给一些建议.
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 122.121.205.2
1F:推 ypcat:因为是 ajax 吧 08/04 09:41
2F:→ Dannvix:推荐你用 Firefox + LiveHTTPHeader 去看 request 08/04 17:59
3F:→ einstein328:感谢楼上 提点, 在下会google一下其关键字 08/04 19:51
4F:→ mantour:用wireshark看封包XD 08/04 22:45
5F:推 cobrasgo:通常是用wireshark抓封包来看它实际到哪里抓资料 08/07 23:52
6F:→ cobrasgo:一定有规则就可以用力抓了 08/07 23:52
7F:→ cobrasgo:我有cronjob每天自己会去抓期交所和证交所的一些资料 08/07 23:52