作者nana0130 (小那)
看板PHP
标题[请益] curl 抓google多个网页
时间Sat Oct 23 00:36:20 2010
我爬过文,我看过有人可以用curl 抓google搜寻结果的网页
但是我需要更多那样的网页
我想要抓 例如 "she love" page1 , page2, page3......看我想要多少
我想算算看,she love 这两个字,到底出现过几次。所以我想要更多的样本空间
第一页
http://www.google.com.tw/search?hl=zh-TW&source=hp&biw=1276&bih=588&q=She+love&rlz=1R2SUNC_zh-TWTW397&aq=f&aqi=g10&aql=&oq=&gs_rfai=
第二页 把start 後面的数字改一下就可以再跳下一个page
http://www.google.com.tw/search?q=She+love&hl=zh-TW&biw=1276&bih=588&rlz=1R2SUNC_zh-TWTW397&prmd=vi&ei=ubrBTPX8DMGecaeaic0N&start=10&sa=N
对不起连结真的很长
可是这个连结不是固定的
下次搜寻别的
後面那些编码又有一些不同
例如 he wants
第二页又变成
http://www.google.com.tw/search?q=He+wants&hl=zh-TW&biw=1276&bih=588&rlz=1R2SUNC_zh-TWTW397&ei=2LrBTLrIDYa3cI6u7csN&start=10&sa=N
後面一截就不一样了
我没办法用固定的url 去搜寻
该怎麽去捞後面的网页呢?
paper上面都有看过人家这样作,我相信一定是有,
有没有高手可以教我一下
谢谢>"<
--
感谢每个帮我克服Perl关卡的人~
感谢你~虽然我不认识你~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.20.154.148
1F:→ LewisHamiltn:google不是有search api可以用?怎不直接用? 10/23 02:07
2F:→ nana0130:search api 是做什麽用?? 10/23 02:17
4F:→ LewisHamiltn:他直接就会丢回 estimatedResultCount.... 10/23 02:29
5F:→ nana0130:喔,这样喔,那就要用jsp去套用他的api噜? 10/23 03:23
6F:→ LewisHamiltn:他不是有php版的范例= =?干麽用jsp 10/23 11:36