作者giacch (小a)
看板RegExp
標題Re: [問題] 抓取網頁資訊
時間Sun Nov 2 03:51:53 2008
※ 引述《MrAshan (一輩子)》之銘言:
: <li class=g><h3 class=r><a
: href="http://mi.nou.edu.tw/workshop/workshop_910718.htm"
: 以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁
: 我表示式寫成
: (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 沒辦法抓取我要的網頁
: 但若我改成
: (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來
: 我只要單一乾淨的主網頁 不要子網頁
: 有沒有 辦法??
#!/usr/bin/perl
while(<>) {
while(s/<li class=g><h3 class=r><a href="([^"]+)//) { print $1 . "\n"; }
}
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.232.236.185
1F:推 MrAshan:請問一下 我是用java的 這個也能拿來使用java嗎?? 11/05 18:59
2F:→ giacch:Java我不懂... /RegExp/ 應該都一樣吧~ 11/05 23:05