作者elicamars (陰天)
看板Python
標題[問題] 大量網頁的特定文字截取?
時間Sun May 29 18:56:57 2011
我真的是一個超新手的初學者
沒有寫程式的經驗,但為了論文需要截取某網頁上的資料(公開資料)
我現在有兩個問題
第一,目前看到截取網頁都是在同一頁內截取
但我需要所有
http://xxx.xxx.xxx?ID=XXXXX的所有網頁內容
也就是所有id的網頁都需要,但id並不是連續數字,是網頁的名稱
該如何截取呢?大約有二千頁,我需要一些關鍵字
第二,我只是要裡面三段文字,
可以有個指令是下"我只要以下三個中文字+它們後方的資料"即可?
軟體名稱:____
下載次數:____
軟體價格:___
然後下載成一個excel檔,就整理成:軟體名稱|下載次數|軟體價格的列表
不曉得這樣截取會太暴力而被擋嗎?
希望有個指引可以讓我完成它,先跟大家說聲謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.27.212.83
1F:→ uranusjr:會不會太暴力要看那個網站的伺服器設定 05/29 19:05
2F:→ uranusjr:最簡單的方法是把網頁內容讀進成一個 string 後, 用 find 05/29 19:07
3F:→ uranusjr:找到你想要的中文字, 然後擷取後面的資料(要截到哪邊看 05/29 19:07
5F:→ elicamars:我現在還是不曉的要怎麼多個網頁讀入?而且是非連續數 05/29 21:55
6F:→ elicamars:但我已經可以載入檔案~謝謝u大 05/29 21:55
7F:→ uranusjr:雖然不連續, 不過有什麼規則嗎? 05/29 22:15
8F:→ elicamars:沒有規則耶,就是依軟體名稱取的,都是英文字這樣 05/29 22:17
9F:→ kdjf:寫一個list 然後一個一個來? 05/29 22:53
10F:→ elicamars:有可能程式去判斷只要是http:XXX.XXX?id=的字樣全下載嗎 05/30 00:12
11F:→ uranusjr:可是沒辦法知道那個伺服器上面究竟有哪些檔案啊... 05/30 00:36
12F:→ uranusjr:除非你要像猜金庫密碼一樣一個一個試XD 05/30 00:36
13F:→ uranusjr:那個網址格式很明顯是用 GET 在送的, 如果沒有 server 端 05/30 00:41
14F:→ uranusjr:的資訊根本沒辦法知道要送什麼進去才會正確... 05/30 00:42
15F:→ elicamars:對阿(苦笑...)看來真的要去寫list了XD 05/30 00:49