作者giacch (小a)
看板RegExp
标题Re: [问题] 抓取网页资讯
时间Sun Nov 2 03:51:53 2008
※ 引述《MrAshan (一辈子)》之铭言:
: <li class=g><h3 class=r><a
: href="http://mi.nou.edu.tw/workshop/workshop_910718.htm"
: 以上是我想要抓取的 条件是有class=g 跟 class=r时 才抓取网页
: 我表示式写成
: (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 没办法抓取我要的网页
: 但若我改成
: (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 是有办法 可是在google网页中 它会连库存网页也会抓进来
: 我只要单一乾净的主网页 不要子网页
: 有没有 办法??
#!/usr/bin/perl
while(<>) {
while(s/<li class=g><h3 class=r><a href="([^"]+)//) { print $1 . "\n"; }
}
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 118.232.236.185
1F:推 MrAshan:请问一下 我是用java的 这个也能拿来使用java吗?? 11/05 18:59
2F:→ giacch:Java我不懂... /RegExp/ 应该都一样吧~ 11/05 23:05