作者iwhiori (玉米)
看板PHP
標題Re: [問題] 如何解析youtube的網址
時間Tue Feb 28 02:15:11 2012
最近我在做解析 youtube 網址並且下載這件事情...
(然後加上 ffmpeg 轉出 ogg 音樂)
也參考了 Kej 的網站
稍微了解之後,我寫了一份整理在我的網誌
http://magicallove.twbbs.org/wordpress/?p=989
video_id 的取得很簡單,我沒有另外紀錄
等我搞定下載問題會補上去吧XD
目前我解析出來之後遇到一個挺麻煩的問題
這個問題也讓我聯想到 Kej 的網站之所以要大家先下載一份文字檔,再透過 js 解析。
這似乎有點關聯!!
問題狀況是,我解析出來的網址都沒有辦法直接使用 curl 下載
第一次使用 curl "link" > webm 輸出到檔案都會 20秒 timeout
但是緊接著再下一次 curl "link" > webm 就可以運作了
這什麼道理= =a
等我明天睡醒
試試看,再我的伺服器上面讓它先去 curl get_video_info
但是為什麼 Kej 的網站可以第一次另存新檔就成功?
是因為已經有先下載過那份文字檔,等價於我 curl 失敗的那次嗎!
0.0
嗯,越寫越開心,忍不住試了一下
好像果真如我猜測一般~
如果明天順利的話!
我想個辦法看看能不能把這個功能開發成為一個堪用的 api 給大家呼叫~~~
※ 引述《Kej (be me)》之銘言:
: ※ 引述《kenshieh (Not always blank)》之銘言:
: 網址有點眼熟..................... XD
: j75Kl7_ERdM 跟 lax-v239.lax 以及 em-ZhJDjayM 跟 ash-v250.ash
: 之間應該沒有什麼關係,而只是單純的 server hostname 罷了
: 你可以用 firebug 觀察 flv 檔案的 url,會發現多 reload 個幾次
: hostname 是會變的(應該是影片的 server 有好幾台)
: : 懶人做法( 不確定是不是全都可以用, 但隨手試二三個都行 ):
: : // $source == '網頁內容'
: : $pattern = '/watch_fullscreen\?video_id=([\w-]+)&l=\d+&t=([\w-]+)';
: : if (preg_match('#$pattern#s", $source, $m))
: : {
: : echo "GetTube: http://tw.youtube.com/get_video?video_id={$m[1]}&t={$m[2]}";
: : }
: 基本上要取得 youtube 的影片位址,最主要的參數就是 video_id 跟 t
: 像上面那樣的作法是很 OK 的,我一開始也是這樣的方式做的
: 可是當時間久了或量變大了之後,問題就來了
: 不曉得 youtube 是會偵測你今天總共 request 了幾次還是會記錄傳輸量
: 總之當程式抓網頁抓到一個一定的量的時候,youtube 就會把你的連線擋了
: 過了一段時間之後才會再開放讓你連線
: 當初我就一天到晚被擋,後來只好找 open proxy
: 後來我發現了一個方法,不需要找 proxy 也不會被 youtube 擋:
: 以 https://www.youtube.com/watch?v=em-ZhJDjayM 為例
: 我們可以知道他 embed 的標籤裡
: 影片的 src 會是 https://www.youtube.com/v/em-ZhJDjayM
: 而這個 url 會做 redirect
: 最後的網址就像下面這樣:(三行連起來)
: https://www.youtube.com/swf/l.swf?video_id=em-ZhJDjayM&
: eurl=&iurl=http%3A//img.youtube.com/vi/em-ZhJDjayM/default.jpg&
: t=OEgsToPDskLvttI1e7cLfmL15TOMbN24&rel=1&border=0
: 所以程式就可以改成這樣:
: (1). 抓原始 url 裡的參數 v
: (2). 重新組合成 https://www.youtube.com/v/xxxxxxxxxxx 的格式
: (3). 用 fsockopen 讀取 (2),取得 header 的 Location 的 url
: (4). 從 (3) 得到的 url 中,parse 出參數 t
: (5). 組合成 https://www.youtube.com/get_video?video_id=$video_id&t=$t 的格式
: 基本上只要做到這個步驟就可以抓的到檔案了,但是你還可以更進一步:
: (6). 用 fsockopen 讀取 (5),取得 header 的 Location 的 url
: 從 (6) 這步驟得到的 url 就會是像
: http://ash-v250.ash.youtube.com/get_video?video_id=em-ZhJDjayM
: 這樣子的 url
: that's all~!!
: 只要 fsockopen parse_url parse_str 就好
: 不用撈網頁(省流量!),也不用做 regular expression (省腦力!)
: 不會被 youtube 擋,也不會因為 open proxy 關了你的站就死翹翹了(我掛了好幾次orz)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.50.51.128
1F:推 grassboy2:印象中youtube影片實體url會因client端ip不同而不同… 02/28 03:37
2F:→ grassboy2:所以如果要開成api,就相當於每面對一個api call 02/28 03:38
3F:→ grassboy2:就必需從原po的主機抓下來影片後,再傳給api client 02/28 03:39
4F:→ grassboy2:感覺流量會吃很大喔~~但也可能是我記錯啦XDD 02/28 03:40
5F:→ iwhiori:對!抓下來的網址參數的確有ip這欄 02/28 09:19
6F:→ iwhiori:我機器放140.116 如果能成功做成!那我很樂意大家來吃頻寬 02/28 09:19
7F:推 kusoayan:推一下 02/28 11:23
8F:推 shadowjohn:推一個,建議可以參考 youtube-dl (python)有現成的了 02/28 18:09
9F:→ iwhiori:哦感謝樓上 我去找找 03/17 12:55
10F:→ iwhiori:python youtube-dl 03/19 11:44
11F:→ iwhiori:wokrs !! 太偉大了! 03/19 11:44