PHP 板


LINE

看板 PHP  RSS
小弟想利用curl來抓取某網站的內容 https://www.youtube.com/trendsdashboard#age0=25-34&loc0=twn 使用以下mycurl()的程式碼 , 有抓到東西 抓到的head如下: HTTP/1.1 200 OK Date: Wed, 30 Mar 2016 09:23:41 GMT Server: gwiseguy/2.0 X-Frame-Options: SAMEORIGIN X-XSS-Protection: 1; mode=block; report=https://www.google.com/appserve/security-bugs/log/youtube Cache-Control: no-cache Content-Type: text/html; charset=utf-8 Expires: Tue, 27 Apr 1971 19:44:06 EST Strict-Transport-Security: max-age=604800 X-Content-Type-Options: nosniff Accept-Ranges: none Vary: Accept-Encoding Transfer-Encoding: chunked 後來我也有把cookie 送上去 但不知為什麼抓不到原始網頁下方影片的資訊(連結href, 點及次數...等資訊) 想請教大家自己是哪個地方出錯? 或是目標網頁有什麼新技術 造成無法抓取呢? 感謝~~ function mycurl() { //目標網站 $target1="https://www.youtube.com/trendsdashboard#age0=25-34&loc0=twn "; #####(A 1)選項設定: 目標設置 / 起始 / 假冒 $s=curl_init(); curl_setopt($s,CURLOPT_URL,$target1); $user_agent='Mozilla/5.0 (Windows NT 6.1;WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11'; curl_setopt($s, CURLOPT_USERAGENT, $user_agent); #(1)是否發送POST請求 (填表單) //$POST_data1=array('CN'=>"l6",'remember'=>"1",'UserPASSWORD'=>"091",'URL'=>""); //$POST_data2=array('username'=>"[email protected]",'passwd'=>""); //curl_setopt($s,CURLOPT_POST,1); //curl_setopt($s,CURLOPT_POSTFIELDS,$POST_data1); #(2)結果回傳:是否以 文件流/二元碼方式傳回 curl_setopt($s,CURLOPT_RETURNTRANSFER,TRUE); //curl_setopt($s,CURLOPT_BINARYTRANSFER,TRUE); #(3)結果回傳:是否 包含標頭 / 只要BODY curl_setopt($s,CURLOPT_HEADER,TRUE); #(4)COOKIE設定: CURLOPT_COOKIEJAR接收儲存資訊 ,而CURLOPT_COOKIEFILE送出資訊。 ###送出多個cookie內容(變數資料串),分號後要帶1個空格 範例"friut=8923; curl_setopt($s,CURLOPT_COOKIE,"VISITOR_INFO1_LIVE=4kLW9NhJVbI; YSC=KTyxERZA5Io; PREF=f1=50000000"); ###記錄COOKIE資訊,在cookie.txt中(絕對位置) curl_setopt($s,CURLOPT_COOKIEJAR,"C:\\xampp\\htdocs\\mark\\cookie.txt"); ###瀏覽時,把cookie.txt當中的COOKIE資訊一併送出給伺服器 curl_setopt($s,CURLOPT_COOKIEFILE,"C:\\xampp\\htdocs\\mark\\cookie.txt"); #(5)SSL網站 (https開頭) ######抓取SLL網站則要記得開啟verifypeer這行 並設定成false curl_setopt($s,CURLOPT_SSL_VERIFYPEER,false); curl_setopt($s,CURLOPT_SSL_VERIFYHOST,0); //curl_setopt($s, CURLOPT_SSL_CAPATH,cainfo); //curl_setopt($s, CURLOPT_SSL_CAINFO,"cainfo.txt"); //curl_setopt($s, CURLOPT_SSL_VERSION,2); ######是否檢查伺服器端SSL證書中有沒有domain/subdomain name //curl_setopt($s, CURLOPT_SSL_VERIFYHOST,TRUE); # (6)設定等待SERVER的時間~單位秒 curl_setopt($s,CURLOPT_TIMEOUT,15); # (7)重新導向 : 是否跟隨重導 ,設定引入參照, 最大重導次數 curl_setopt($s,CURLOPT_FOLLOWLOCATION,TRUE); curl_setopt($s,CURLOPT_AUTOREFERER,TRUE); curl_setopt($s,CURLOPT_MAXREDIRS,3); //curl_setopt($s,CURLOPT_UNRESTRICTED_AUTH,TRUE); #####(B)最後一次 執行CURL 並把錯誤資訊導出################ $download_page=curl_exec($s); $errors=curl_error($s); ###### 展示並寫入擋案:$download_page & webget.txt ######## echo $download_page."<br>"."抓取結END!"; file_put_contents("WEBget.txt",$download_page); } --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.184.33.38
※ 文章網址: https://webptt.com/m.aspx?n=bbs/PHP/M.1459329966.A.476.html ※ 編輯: marksam (111.184.33.38), 03/30/2016 17:34:21 ※ 編輯: marksam (111.184.33.38), 03/30/2016 17:38:21
1F:→ MOONRAKER: 天啊 ajax網站用curl怎麼抓得完 03/30 18:22
2F:→ MOONRAKER: 人家有API 不要用這種逼豬上樹的方法好嗎 03/30 18:23
※ 編輯: marksam (111.184.33.38), 03/30/2016 18:51:05
3F:→ marksam: 如何看出有AJAX呢? 慢慢爬JS碼嗎? 03/30 18:51
4F:→ JustGame: 請愛用瀏覽器 F12 快捷鍵,是說這樣來得及結案嗎? 03/30 22:16
※ 編輯: marksam (111.184.33.38), 03/30/2016 23:10:14
5F:→ marksam: 按了f12阿 但是從我抓下來的內容中 找不到關鍵的ajax 03/30 23:11
6F:→ marksam: 應該問「從js大海中 看出ajax的關鍵字」是什麼呢? 03/30 23:12
7F:→ Neisseria: https://www.youtube.com/yt/dev/ 不要花時間找了 03/30 23:17
8F:→ Neisseria: 有空的話,好好學些 third-party API 卡實在 03/30 23:18
9F:推 aaa7513231: 蠻好奇他不是要求用bat或exe嘛,php是要 03/31 00:31
10F:→ aaa7513231: 怎樣用啊 03/31 00:31
11F:→ Neisseria: http://php.net/manual/en/book.curl.php 包成 library 03/31 05:02
12F:→ MOONRAKER: 你是在抓youtube 不是沒人聽過的2266站好嗎 03/31 09:41
13F:→ MOONRAKER: 這種變態的站根本不用看他有沒有ajax 用聞的就知道了 03/31 09:43







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:iOS站內搜尋

TOP