作者filiaslayers (司马云)
看板RegExp
标题[问题] 网页资料抓取
时间Mon Mar 3 15:17:58 2014
/*
听说注明使用的语言、环境
*
问题有可能较容易被解决...
*/
我写了一个script想要抓取一个网页上的档案列表
这个网页是用apache做index,也就是会把目录下的档案自动生成一个列表
我有上网google到一个方法,不过他写的我实在看不懂...
有人可以教我怎麽分析吗?
wget --spider --recursive --no-verbose --output-file=wgetlog.txt $url
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@"
第一行我知道,不过第二行就不看太懂了
而且linux下的sed不是应该要用
'而不是
"吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.135.113.202
1F:→ danny8376:谁跟你说一定要用'了? "只是要考虑shell的一些特殊符号 03/03 19:23
2F:→ danny8376:要记得跳脱比较麻烦而已 03/03 19:23
3F:→ filiaslayers:所以是都可以吗?我看所有的教学文都用'才觉得奇怪 03/03 21:04
4F:→ danny8376:两者的差别 你可以分别跑 echo '$PATH' 和 echo "$PATH" 03/03 21:44
5F:→ danny8376:差异很明显 03/03 21:44
6F:→ danny8376:然後回一下你问了 第二行的话 很简单 03/03 21:47
7F:→ danny8376:就是从wgetlog.txt里面抓出URL:後面的部分 03/03 21:47
8F:→ danny8376:(就是WGET输出档案中 档案的部分 03/03 21:48
9F:→ danny8376:抓出来之後再把&换成& (HTML的特殊字元跳脱) 03/03 21:48
懂了,非常谢谢你
还可以再请问一下,里面的@是什麽用意吗?
※ 编辑: filiaslayers 来自: 1.34.109.207 (03/04 08:02)