作者MrAshan (一辈子)
看板RegExp
标题[问题] 抓取网页资讯
时间Thu Oct 30 00:26:20 2008
<li class=g><h3 class=r><a
href="
http://mi.nou.edu.tw/workshop/workshop_910718.htm"
以上是我想要抓取的 条件是有class=g 跟 class=r时 才抓取网页
我表示式写成
(?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
没办法抓取我要的网页
但若我改成
(?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
是有办法 可是在google网页中 它会连库存网页也会抓进来
我只要单一乾净的主网页 不要子网页
有没有 办法??
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 202.132.194.89
1F:→ MrAshan:没人回答我的问题-_- 11/02 00:29
2F:→ giacch:最後那表示式, 前面想办法把class=g的条件加上去试试... 11/02 03:22
3F:→ MrAshan:试了目前在第一页撷取网页是正常但在第二页一样会有子网页 11/02 03:41
4F:→ MrAshan:又会跟之前一样 相同性的问题又出现? 11/02 03:42
5F:→ giacch:可以提供样本作测试吗..? 我找的google连一行都出不来... 11/02 03:44
6F:→ MrAshan:找Crawler相关资讯 会对你有帮助:) 11/07 00:28