作者weijr (Beware of the Monkey)
看板Python
标题Re: [问题] python 抓取网页上的资料??
时间Fri Apr 20 11:06:06 2007
※ 引述《chy1013m1 (alex.c)》之铭言:
: 用 urllib, urllib2 加上 re module 自己写难度不高. =]
在 gmail 出现前,难度不高,但现在是 web 2.0 时代。
urllib2 应付的还是 web 1.0 的东西。
要不然你就要装一些工具或者手动分析那些 AJAX 的流程,
然後直接抓 json 或者 xml,不然就要外挂一个 javascript 翻译器。
这两个有的时候都不简单。
最简单的还是靠 PAMIE、XPCOM、jssh 这类东西来自动控制浏览器比较容易弄。
就算没有 ajax 或者 javascript,而且你不想用浏览器自动机,form, session
的东西还是有点讨厌。靠 urllib2 虽然都可以搞定,常常也不会太麻烦,但有一
些现成的工具帮忙,至少多个选择,而且可以省掉一些麻烦事。有些还可以处理一
点动态 form。如果你只是抓一个网页当然没事,但是有时候你会想要抓一组网页,
或者依照使用者的输入来抓不同的网页。这个现在也很多人有需求,毕竟现在是
web 2.0 mashup 的热潮时代。
PAMIE 程式的强度看起来不高,第一个会碰到的问题是转码的问题,可以把里面的
所有的str内定转码改成 utf-8 。
--
http://weijr-note.blogspot.com 笔记笔记
http://weijr.b81.org/poker 好胆玩家
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 134.208.26.237
※ 编辑: weijr 来自: 134.208.26.237 (04/20 11:14)
1F:推 ykjiang:推 04/21 01:31