作者amigcamel (阿吉amig)
看板Python
標題[問題] 批踢踢Crawler
時間Sat May 19 16:23:50 2012
大家好
最近我試著要寫一個PTT Crawler
利用的是telnetlib
tn = telnetlib.Telnet(host)
我想要做的是將某人po的文整篇複製下來
我的方法簡單說是這樣
1. 進入某文章
2. tn.read_very_eager()
3. 往下一行
4. tn.read_very_eager()
...
直到讀完該文章為止
但效果其實並不好
有沒有人有處理這方面的經驗呢?
懇請賜教,
感激不盡!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 125.227.97.242
※ 編輯: amigcamel 來自: 125.227.97.242 (05/19 17:11)
1F:→ clliu168:對 Web 版來抓呢?我以前抓過 ptt web 版資料,不過有些 05/20 00:11
2F:→ clliu168:時候會 cgi 錯誤之類的問題 05/20 00:11
3F:→ amigcamel:web 沒有問題,但是我想抓八卦版的資料,但似乎web版沒 05/20 00:13
4F:→ amigcamel:有八卦版... 05/20 00:13
5F:→ uranusjr:「效果其實並不好」的意思是? 05/20 09:23
6F:→ suzuke:編碼問題會有一些奇怪的亂碼出現, 我之前也試過 05/21 00:56
7F:推 yudsx:以前有用這個方法抓過其他BBS站的文章 05/30 12:39
8F:→ yudsx:抓下來要把BBS控制碼和色碼的部份去掉 05/30 12:40
9F:推 huggie:PTT BBS 這些控制碼等..這有沒有documentation可以讀? 05/31 12:06
10F:→ uranusjr:去讀 VT100 Terminal 的 control sequence 就行了 06/02 01:15
11F:→ uranusjr:我自己是直接 K BBS 軟體 (Nally) 的實作... 06/02 01:18
12F:推 cobrasgo:樓上真猛@@ 06/02 21:25
13F:推 CodingMan: 請愛用 PTT Library 01/07 09:40