作者yak2573 (Dipole)
看板Web_Design
标题[问题] 批量储存网站原始码
时间Mon Aug 29 16:15:01 2016
大家好,
我想要存取一些网站的原始本到记事本里面。
由於不会写程式的关系,
所以先将一个网址(http:\\ooo..xxx)
变成(view-source:http:\\ooo.xxx)开启後,
全选复制到记事本储存。
尝试使用开启大量网址的小工具URL Lister,
但它似乎只能辨识http开头来做执行。
请问什麽好方法可以一次开启数个网站的原始码,
达到快速存取这些原始码到记事本里,
以利後续的分析,谢谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.231.188.188
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Web_Design/M.1472458504.A.C2D.html
1F:推 kewang: 随便举一种 不写程式的话可以在命令列使用 curl 08/29 19:50
感谢提供方法,
下载curl包後使用cmd执行curl.exe,
指令:curl.exe -o 位置:\输出档案名称.txt 网址,
就能成功取得该网站的原始码,
目前遇到一个问题就是输出文件的格式,
不晓得如何调整成unicode,
这边还在寻找找答案,
感谢回应!
※ 编辑: yak2573 (61.231.188.188), 08/29/2016 21:13:35
2F:推 akccakcctw: 可以用iconv转换编码之後再输出 08/30 09:04
感谢提供方法,
下载iconv包後使用cmd执行iconv.exe,
指令:
iconv.exe -f utf-8 -t utf-16le 1.txt 2.txt
成功将记事本的编码从utf-8转成unicode,
好奇的是,找不到unicode编码这个东西,
而是要用utf-16le这个东西来代表,
感谢回应!
※ 编辑: yak2573 (61.231.188.188), 08/30/2016 10:37:09
原来写在这,感谢指点!
我没看仔细的坏习惯得好好改善。
目前参考别人的程式码使用C
#-HttpWebResponse的方式,
将原始码串流进字串然後存档,
同时发现可以直接用xxx.Replace(字串A,字串B)先做处理,
省了不少步骤。
目前又有新的课题,有些网站需要登入後才可以访问,
看了一些教学,需要取得cookie以及token等等的资讯,
并且发送给伺服器端後才可访问,
这部分还需要多了解。
谢谢诸位解惑!
※ 编辑: yak2573 (61.231.188.188), 08/30/2016 19:24:08
4F:推 hijkxyzuw: 像 ptt 可以用 curl -b "over18=1" 来设定 cookie 。 09/01 22:38
5F:→ hijkxyzuw: 而且网页一般都是 utf8 吧? 09/01 22:39