Re: [問題] 如何解析youtube的網址

時間Tue Feb 28 02:15:11 2012

最近我在做解析 youtube 網址並且下載這件事情... （然後加上 ffmpeg 轉出 ogg 音樂）也參考了 Kej 的網站稍微了解之後，我寫了一份整理在我的網誌 http://magicallove.twbbs.org/wordpress/?p=989 video_id 的取得很簡單，我沒有另外紀錄等我搞定下載問題會補上去吧XD 目前我解析出來之後遇到一個挺麻煩的問題這個問題也讓我聯想到 Kej 的網站之所以要大家先下載一份文字檔，再透過 js 解析。這似乎有點關聯！！問題狀況是，我解析出來的網址都沒有辦法直接使用 curl 下載第一次使用 curl "link" > webm 輸出到檔案都會 20秒 timeout 但是緊接著再下一次 curl "link" > webm 就可以運作了這什麼道理= =a 等我明天睡醒試試看，再我的伺服器上面讓它先去 curl get_video_info 但是為什麼 Kej 的網站可以第一次另存新檔就成功？是因為已經有先下載過那份文字檔，等價於我 curl 失敗的那次嗎！ 0.0 嗯，越寫越開心，忍不住試了一下好像果真如我猜測一般～如果明天順利的話！我想個辦法看看能不能把這個功能開發成為一個堪用的 api 給大家呼叫～～～ ※ 引述《Kej (be me)》之銘言： : ※ 引述《kenshieh (Not always blank)》之銘言： : 網址有點眼熟..................... XD : j75Kl7_ERdM 跟 lax-v239.lax 以及 em-ZhJDjayM 跟 ash-v250.ash : 之間應該沒有什麼關係，而只是單純的 server hostname 罷了 : 你可以用 firebug 觀察 flv 檔案的 url，會發現多 reload 個幾次 : hostname 是會變的(應該是影片的 server 有好幾台) : : 懶人做法( 不確定是不是全都可以用, 但隨手試二三個都行 ): : : // $source == '網頁內容' : : $pattern = '/watch_fullscreen\?video_id=([\w-]+)&l=\d+&t=([\w-]+)'; : : if (preg_match('#$pattern#s", $source, $m)) : : { : : echo "GetTube: http://tw.youtube.com/get_video?video_id={$m[1]}&t={$m[2]}"; : : } : 基本上要取得 youtube 的影片位址，最主要的參數就是 video_id 跟 t : 像上面那樣的作法是很 OK 的，我一開始也是這樣的方式做的 : 可是當時間久了或量變大了之後，問題就來了 : 不曉得 youtube 是會偵測你今天總共 request 了幾次還是會記錄傳輸量 : 總之當程式抓網頁抓到一個一定的量的時候，youtube 就會把你的連線擋了 : 過了一段時間之後才會再開放讓你連線 : 當初我就一天到晚被擋，後來只好找 open proxy : 後來我發現了一個方法，不需要找 proxy 也不會被 youtube 擋： : 以 https://www.youtube.com/watch?v=em-ZhJDjayM 為例

: 我們可以知道他 embed 的標籤裡 : 影片的 src 會是 https://www.youtube.com/v/em-ZhJDjayM : 而這個 url 會做 redirect : 最後的網址就像下面這樣：（三行連起來） : https://www.youtube.com/swf/l.swf?video_id=em-ZhJDjayM& : eurl=&iurl=http%3A//img.youtube.com/vi/em-ZhJDjayM/default.jpg& : t=OEgsToPDskLvttI1e7cLfmL15TOMbN24&rel=1&border=0 : 所以程式就可以改成這樣： : (1). 抓原始 url 裡的參數 v : (2). 重新組合成 https://www.youtube.com/v/xxxxxxxxxxx 的格式 : (3). 用 fsockopen 讀取 (2)，取得 header 的 Location 的 url : (4). 從 (3) 得到的 url 中，parse 出參數 t : (5). 組合成 https://www.youtube.com/get_video?video_id=$video_id&t=$t 的格式 : 基本上只要做到這個步驟就可以抓的到檔案了，但是你還可以更進一步： : (6). 用 fsockopen 讀取 (5)，取得 header 的 Location 的 url : 從 (6) 這步驟得到的 url 就會是像 : http://ash-v250.ash.youtube.com/get_video?video_id=em-ZhJDjayM : 這樣子的 url : that's all~!! : 只要 fsockopen parse_url parse_str 就好 : 不用撈網頁(省流量！)，也不用做 regular expression (省腦力！) : 不會被 youtube 擋，也不會因為 open proxy 關了你的站就死翹翹了(我掛了好幾次orz) --

※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.50.51.128

1^F：推 grassboy2:印象中youtube影片實體url會因client端ip不同而不同… 02/28 03:37

2^F：→ grassboy2:所以如果要開成api，就相當於每面對一個api call 02/28 03:38

3^F：→ grassboy2:就必需從原po的主機抓下來影片後，再傳給api client 02/28 03:39

4^F：→ grassboy2:感覺流量會吃很大喔~~但也可能是我記錯啦XDD 02/28 03:40

5^F：→ iwhiori:對！抓下來的網址參數的確有ip這欄 02/28 09:19

6^F：→ iwhiori:我機器放140.116 如果能成功做成！那我很樂意大家來吃頻寬 02/28 09:19

7^F：推 kusoayan:推一下 02/28 11:23

8^F：推 shadowjohn:推一個，建議可以參考 youtube-dl (python)有現成的了 02/28 18:09

9^F：→ iwhiori:哦感謝樓上我去找找 03/17 12:55

10^F：→ iwhiori:python youtube-dl 03/19 11:44

11^F：→ iwhiori:wokrs !! 太偉大了！ 03/19 11:44

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

PHP 板

Re: [問題] 如何解析youtube的網址

熱門看板

贊助商連結