作者yak2573 (Dipole)
看板Web_Design
標題[問題] 批量儲存網站原始碼
時間Mon Aug 29 16:15:01 2016
大家好,
我想要存取一些網站的原始本到記事本裡面。
由於不會寫程式的關係,
所以先將一個網址(http:\\ooo..xxx)
變成(view-source:http:\\ooo.xxx)開啟後,
全選複製到記事本儲存。
嘗試使用開啟大量網址的小工具URL Lister,
但它似乎只能辨識http開頭來做執行。
請問什麼好方法可以一次開啟數個網站的原始碼,
達到快速存取這些原始碼到記事本裡,
以利後續的分析,謝謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.188.188
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Web_Design/M.1472458504.A.C2D.html
1F:推 kewang: 隨便舉一種 不寫程式的話可以在命令列使用 curl 08/29 19:50
感謝提供方法,
下載curl包後使用cmd執行curl.exe,
指令:curl.exe -o 位置:\輸出檔案名稱.txt 網址,
就能成功取得該網站的原始碼,
目前遇到一個問題就是輸出文件的格式,
不曉得如何調整成unicode,
這邊還在尋找找答案,
感謝回應!
※ 編輯: yak2573 (61.231.188.188), 08/29/2016 21:13:35
2F:推 akccakcctw: 可以用iconv轉換編碼之後再輸出 08/30 09:04
感謝提供方法,
下載iconv包後使用cmd執行iconv.exe,
指令:
iconv.exe -f utf-8 -t utf-16le 1.txt 2.txt
成功將記事本的編碼從utf-8轉成unicode,
好奇的是,找不到unicode編碼這個東西,
而是要用utf-16le這個東西來代表,
感謝回應!
※ 編輯: yak2573 (61.231.188.188), 08/30/2016 10:37:09
原來寫在這,感謝指點!
我沒看仔細的壞習慣得好好改善。
目前參考別人的程式碼使用C
#-HttpWebResponse的方式,
將原始碼串流進字串然後存檔,
同時發現可以直接用xxx.Replace(字串A,字串B)先做處理,
省了不少步驟。
目前又有新的課題,有些網站需要登入後才可以訪問,
看了一些教學,需要取得cookie以及token等等的資訊,
並且發送給伺服器端後才可訪問,
這部分還需要多了解。
謝謝諸位解惑!
※ 編輯: yak2573 (61.231.188.188), 08/30/2016 19:24:08
4F:推 hijkxyzuw: 像 ptt 可以用 curl -b "over18=1" 來設定 cookie 。 09/01 22:38
5F:→ hijkxyzuw: 而且網頁一般都是 utf8 吧? 09/01 22:39