作者BIAO (超越自己)
看板Linux
標題[問題] wget抓取網頁內容疑問!?
時間Mon Jul 10 18:47:54 2017
各位板友大家好,
想請問如果要用wget抓取網頁內容該如何操作呢?
我需要抓取
http://24.23.159.200:8603/頁面的內容,
但是用wget只能抓到html的標籤,
懇請板上先進提供指引,謝謝大家。
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.193.176
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Linux/M.1499683676.A.263.html
1F:→ bamchisu: curl 07/10 19:14
2F:→ kenduest: 那個算是動態網頁內容,裡面有 js 語法讓瀏覽器去進行 07/10 19:19
3F:→ kenduest: 內容大概就是每隔一秒對某個 url 請求 07/10 19:26
5F:→ kenduest: 測試看看 07/10 19:26
6F:→ BIAO: 謝謝二位,真的可以了!curl為什麼可以撈到後端產生的資料呢? 07/10 20:36
7F:→ BIAO: 如果我要寫個爬蟲程式,不用libcurl的話能夠做到嗎? 07/10 20:37
8F:→ BIAO: 其實我想問的是這件事 XDDD 07/10 20:37
9F:→ BIAO: 這個撈動態網頁資料的方式有沒有專有名詞呢? 07/10 20:47
10F:→ BIAO: 主要是好像用python或node.js相對於Qt好像比較好爬蟲.. 07/10 20:48
11F:→ BIAO: 但是因為需要直接用qt程式碼進行爬蟲,所以想和板友請教一下 07/10 20:49
12F:→ CP64: 就只是去分析網頁的行為啊 07/10 21:20
14F:→ CP64: 拉資料 然後填充到網頁裡 07/10 21:22
15F:→ CP64: 就是說 你要的網頁只是骨架 實際上內容是用 js 07/10 21:23
16F:→ CP64: 拉東西下來 然後填進骨架 但是 wget 不會去處理 javascript 07/10 21:24
17F:→ CP64: 所以你拉下來會是只有一點 html 07/10 21:24
19F:→ BIAO: 疑,對耶!wget也是有的,因為我一開始沒有加stream.. 07/10 21:39
※ 編輯: BIAO (61.230.201.147), 07/10/2017 22:31:17
20F:→ BIAO: 原來有這種東西...XD 07/10 22:33
21F:→ BIAO: 謝謝CP64大喔 ^^ 07/11 10:06