作者amigcamel (阿吉amig)
看板Python
标题[问题] 批踢踢Crawler
时间Sat May 19 16:23:50 2012
大家好
最近我试着要写一个PTT Crawler
利用的是telnetlib
tn = telnetlib.Telnet(host)
我想要做的是将某人po的文整篇复制下来
我的方法简单说是这样
1. 进入某文章
2. tn.read_very_eager()
3. 往下一行
4. tn.read_very_eager()
...
直到读完该文章为止
但效果其实并不好
有没有人有处理这方面的经验呢?
恳请赐教,
感激不尽!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.227.97.242
※ 编辑: amigcamel 来自: 125.227.97.242 (05/19 17:11)
1F:→ clliu168:对 Web 版来抓呢?我以前抓过 ptt web 版资料,不过有些 05/20 00:11
2F:→ clliu168:时候会 cgi 错误之类的问题 05/20 00:11
3F:→ amigcamel:web 没有问题,但是我想抓八卦版的资料,但似乎web版没 05/20 00:13
4F:→ amigcamel:有八卦版... 05/20 00:13
5F:→ uranusjr:「效果其实并不好」的意思是? 05/20 09:23
6F:→ suzuke:编码问题会有一些奇怪的乱码出现, 我之前也试过 05/21 00:56
7F:推 yudsx:以前有用这个方法抓过其他BBS站的文章 05/30 12:39
8F:→ yudsx:抓下来要把BBS控制码和色码的部份去掉 05/30 12:40
9F:推 huggie:PTT BBS 这些控制码等..这有没有documentation可以读? 05/31 12:06
10F:→ uranusjr:去读 VT100 Terminal 的 control sequence 就行了 06/02 01:15
11F:→ uranusjr:我自己是直接 K BBS 软体 (Nally) 的实作... 06/02 01:18
12F:推 cobrasgo:楼上真猛@@ 06/02 21:25
13F:推 CodingMan: 请爱用 PTT Library 01/07 09:40