作者kuan0817 ()
看板Python
标题[问题] 抓取完整网页内容
时间Tue May 29 19:29:32 2012
浏览器软体可以直接手动存取完整网页内容
存下来的html里, 图片或是javascript等的路径会自动更改成相对路径来做参考
但是好像不只是路径有改, 其实整个html的部分编排好像都有改变
这目前有甚麽library可以做到吗?
或是能做到一定的程度
原本想要自己parse内容的方式做出来
但是发现好像不是我想像的那样容易...
所以想来问问看
(主要是希望之後网页有可阅读性, 而不是打开之後东缺西缺)
谢谢^^
--
Name Po Mins FG 3Pt FT Off Reb Ast Stl BS PF Pts
V.Divac C 29.9 .467 .240 .711 2.00 7.20 3.5 1.05 1.32 3.00 10.0
C.Webber F 39.3 .461 .238 .606 2.40 10.6 5.4 1.59 1.33 3.10 23.1
P.Stojakovic F 34.1 .483 .387 .874 0.90 5.50 2.0 0.99 0.07 2.00 19.3
D.Christie G 33.9 .480 .399 .809 0.70 4.30 4.7 2.28 0.47 2.30 9.4
M.Bibby G 33.5 .469 .407 .863 0.60 2.70 5.2 1.31 0.15 1.70 15.9
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.82.131
※ 编辑: kuan0817 来自: 140.116.82.131 (05/29 19:30)
1F:推 IAMPF:wget? 05/29 19:41
2F:→ tjjh89017:推wget -k简单又方便XD 05/29 19:54
3F:→ kdjf:wget -k -E -p [-H(cross host)] 05/29 23:54
4F:→ poopoo888888:BeautifulSoup ? 05/30 11:35
5F:→ yudsx:推wget 05/30 12:41
6F:→ lulala453:Try PyWebkit 06/16 14:22
7F:→ lulala453:看错内容了,我以为你要做 crawler Orz ... 06/16 14:23