作者cuello (cuello)
看板Linux
標題[問題] 這個 sed-縮網址程式何時會爆炸?
時間Wed Nov 4 06:52:13 2020
#!/bin/sh
#
# 1604436674 created for testing in Linux/PTT
#
# 這是個 YouTube 縮網址的 one-liner. 必須很 portable.
# 我已測試過各種不同形狀的水管 url's 例如:
#
# /v/<VID>
# watch?v=<VID>
# embed/<VID>?rel=0
# watch?argv=xyz&v=<VID>
# watch?v=<VID>&list=PLDB852818BF378DAC
# watch?v=<VID>&feature=related
# watch?argv=xyz&v=<VID>
# watch?v=<VID>&feature=feedrec_grec_index
# user/IngridMichaelsonVEVO#p/a/u/1/<VID>
# v/<VID>?fs=1&hl=en_US&rel=0
# watch?v=<VID>#t=0m10s
# embed/<VID>?rel=0
# watch?v=<VID>
#
http://youtu.be/<VID> (idempotent)
#
# 能不能幫忙看看還有哪些 url's 會出錯, 並幫忙想辦法?
#
# 我本來不喜歡縮網址的, 因為不知道有效期限多久...
# 但如果我沒誤解的話, youtu.be 是水管自家的,
# 而且保留了原始的影片 ID (確定都是11個字嗎?).
# 所以還可以接受.
#
# 解說:
#
# 0. 它必須儘可能 portable, 不管甚麼系統, 必須隨抄即用
# 誰有 Solaris, SunOS, OsX, Ultrix, AIX, ... 拜託!
# 我只是很好奇, 它能有多廣的 portability.
#
# 1. 請忽視與 termux 有關的東西, 那是讓手機也可以用的,
#
# 2. youtu() 就已經是個充份的 one-liner.
# 為了應付可能出現的雜七雜八的選項及形態
# 我決定擷取 \1. protocol 跟 \2. video_id
# 然後忽略掉其它可能出現的所有東西.
#
# 3. 為方便測試, 所以它要可以從 X-clipborad 讀取,
# 由 stdin 讀取, 也可以由指令行讀取.
#
# 4. 用了 sed(1) tr(1) grep(1) xsel(1) termux-clipboard-get(1)
#
# 5. 1604555294 新增, 原本的 -e 's/$/\n/' | tr -s '\n' 是為了確保
# 行尾起碼有一個 newline, 而且只有一個. 這也是為了使用上方便.
youtu()
{
# sed -e 's|^\(http.\?\):.*[/vd]\{0,1\}[0-9vd][/=]\([0-9a-zA-Z_-]\{11\}\).*$|\1://youtu.be/\2|' -e 's/$/\n/' | tr -s '\n'
# 哇-- 這行那麼長不知道會不會壞掉....
#
# 1604555294 更新, 上面那一行到 FreeBSD 就燒了, 先斷成兩行吧 (lantw44)
# sed 's|^\(http[s]\{0,1\}\):.*[/vd]\{0,1\}[0-9vd][/=]\([0-9a-zA-Z_-]\{11\}\).*$|\1://youtu.be/\2\
#|' | tr -s '\n'
# 1604671459 找了 awk 幫忙來確保 one & only one newline
sed 's|^\(http[s]\{0,1\}\):.*[/vd]\{0,1\}[0-9vd][/=]\([0-9a-zA-Z_-]\{11\}\).*$|\1://youtu.be/\2|' | awk 1
}
if [ -t 0 ] # priority: stdin > "$1" > X-clipboard
then
# echo "$HOME" | grep -q termux && XGET="termux-clipboard-get" || XGET="xsel"
# [ "$1" ] && echo "$1" | youtu || $XGET | youtu
# 1604570722 還是改一下吧, 以上兩行是錯的, A && B || C 不是 if-then-else
# (contributors: lantw44 rickieyang bitlife)
# if echo "$HOME" | grep -q termux
# then
# XGET="termux-clipboard-get"
# else
# XGET="xsel"
# fi
#
# if [ "$1" ]
# then
# echo "$1" | youtu
# else
# $XGET | youtu
# fi
# 1604671459 讓它在 Mac 上也會動 (rickieyang)
if [ "$1" ]
then
echo "$1" | youtu
else # termux > Mac > X11
XGET="xsel"
uname | grep -q "Darwin" && XGET="pbpaste"
echo "$HOME" | grep -q "termux" && XGET="termux-clipboard-get"
$XGET | youtu
fi
else
youtu
fi
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.174.150 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Linux/M.1604443935.A.A5C.html
1F:→ Typebrook: 還沒看完,不過要大量用到Regex的話,sed建議加-E 11/04 09:04
2F:→ Typebrook: 這樣很多地方就不用加反斜線了 11/04 09:05
3F:→ Typebrook: 然後我會這樣寫: 11/04 09:18
4F:→ Typebrook: sed -Ee 's@(http|https)://.*[/=]([0-9a-zA-Z_-]{11}) 11/04 09:18
5F:→ Typebrook: .*@\1://youtu.be/\2@' 11/04 09:19
6F:→ Typebrook: 如果確定都是11碼後9碼以上,vd那段其實不用加 11/04 09:19
7F:→ Typebrook: 或者也可以把{11}改成{11,} 11/04 09:26
多謝,我看我們還是先照顧跨平台適應性吧
另外,那段很醜的 vd 甚麼,
是 ad hoc 應付後面雜雜八的水管選項
否則好像過不了關, 你有試過可以嗎?
另外,我也不確定 http 會不會出現大寫 HTTP...
8F:推 bitlife: 你要找何時會爆是要找實務上可見的,還是故意弄出會爆但實 11/04 09:27
9F:→ bitlife: 務上不(太可能)會出現的? 11/04 09:28
基本上,先照料實務上尚未預見的狀況好了
i.e. 火箭升空自爆的狀況,先不管是否有外星人故意推它
來看看,擺在這裡一個月,是否可能弄堅固一點
讓它可以拿到任何認得 #!/bin/sh 的地方就跑
也讓我多長點見識
10F:→ lantw44: shell script 部分的 portability 可以先跑 shellcheck 11/05 00:03
11F:→ lantw44: 看看有沒有問題,而一樓說的 sed -E 在 POSIX 沒有,所以 11/05 00:04
12F:→ lantw44: 可以猜想如果有的系統只做 POSIX 那就不能用 sed -E。 11/05 00:05
13F:→ lantw44: 實際測試這個 script 在 FreeBSD 執行成功但結果有誤,因 11/05 00:08
14F:→ lantw44: 為 FreeBSD 的 sed 不支援 \? 和 \n。 11/05 00:09
好,我稍後再去看 shellcheck
FreeBSD 燒了, 那麼到 Mac 上應該不會太好....
沒有 \? 的話, 那先用 http[s]\{0,1\} 吧
這裡我一直覺得很心虛, 因為 httpx: 也 match!?
不知為甚麼, \{m, n\} 對我而言一直都是"失控"的...
\n 的話, 那大概只能斷成兩行了,
反正, 另外設個變數 NL="\n" 來用在 sed 裡, 也一樣醜...
※ 編輯: cuello (118.167.174.150 臺灣), 11/05/2020 14:16:25
剛去裝了 shellcheck. 它對我的 A && B || C 有意見
SC2015: Note that A && B || C is not if-then-else.
C may run when A is true.
請問有人,甚麼情況下碰過 A=true 但 C 卻被執行的?
※ 編輯: cuello (118.167.174.150 臺灣), 11/05/2020 14:41:56
15F:推 rickieyang: B false? 11/05 15:30
16F:→ cuello: 是說,我一直相信,B false 的情況,跟 C 一樣, 11/05 15:59
17F:→ cuello: evaluation 會停下來,return false 的值... 11/05 15:59
18F:→ cuello: 對於 Bourne shell 而言,我一直保持這種態度, 11/05 16:01
19F:→ cuello: 現在居然要被推翻了嗎? :( 11/05 16:01
20F:→ cuello: 因為答案是 false 已經得到了 11/05 16:10
21F:→ cuello: 就不繼續 evaluate C 了 11/05 16:10
22F:→ cuello: 有誰在哪個系統上,哪個 shell 會繼續做 C 嗎? 11/05 16:10
23F:→ bitlife: 假設A true,但如果B為false,就會去執行C啊 11/05 16:19
24F:→ bitlife: (後方命令會印出hello) $ true && false || echo hello 11/05 16:20
25F:→ cuello: 對對對,我是錯的,頭殼壞掉了才會這樣 11/05 17:12
各位,我一直習慣性地把 A && B || C
拿來當 if-then-else, 這是很白蚩的!
不過這個介面問題先不改了,
我們先聚焦在那一行(變兩行了) sed 吧
※ 編輯: cuello (118.167.174.150 臺灣), 11/05/2020 17:21:02
※ 編輯: cuello (118.167.174.150 臺灣), 11/05/2020 18:06:49
另外請問大家,Mac 上面應該沒有 xsel(1) 吧
但是可能會有對應的指令, 還有要怎麼判斷是個 Mac?
※ 編輯: cuello (118.167.174.150 臺灣), 11/05/2020 22:13:37
26F:推 rickieyang: 沒有 xsel, uname 會得到 Darwin 11/06 00:16
27F:推 rickieyang: mac 要拿剪貼簿內容可以用 pbpaste 11/06 00:19
多了 Mac 會跑, 感覺總是比較好,希望是對的
28F:推 Gold740716: 我覺得沒必要全部寫在同一行,你可以把 sed 分成很多 11/06 21:19
29F:→ Gold740716: 行 11/06 21:20
30F:→ Gold740716: 尤其是考慮到可讀性 11/06 21:20
是的,應該從善如流的,迷失的時候忽略可讀。
不過 regex 有時不大敢, 或懶得去動.
※ 編輯: cuello (59.115.149.134 臺灣), 11/06/2020 22:18:08
31F:推 Gold740716: 我看 freebsd 的 sed 手冊是寫支援 `\n` 的啊? 11/06 23:20
33F:推 lantw44: 手冊上指的應該是可以用 \n 配對輸入,但不能用在輸出。 11/07 13:29
34F:→ lantw44: 根據 POSIX 的說法,若要在 s 指令中輸出換行,則要使用 11/07 13:35
35F:→ lantw44: 反斜線加真正的換行字元。 11/07 13:37
所以 H 插入的 \n 是可以 match 到的?
那就可以去掉囉?
※ 編輯: cuello (59.115.149.134 臺灣), 11/07/2020 17:16:07
36F:→ lantw44: 推文的時候我是用 N 測試的,可以 match 到。我也試過輸 11/07 20:09
37F:→ lantw44: 出換行,用 \ 加換行字元是可以輸出的。 11/07 20:10
38F:推 ucrxzero: 是說A &&(B||!B )||C其實就行啦 11/08 00:12
39F:→ ucrxzero: 你會以為A&&B||C可行是因為 通常BC都不會當表達式了不 11/08 00:13
40F:→ ucrxzero: 會care $?是否為0 11/08 00:13
41F:→ cuello: 因為我B常是在做 assignment,用慣了開始錯覺吧 11/08 09:34
42F:→ cuello: 所以不要常用成語,idiom 用多了會變 idiot! :) 11/08 09:34
43F:→ bitlife: 用 A && (B||true) || C會更好,避免B不是idempotent以及 11/08 13:22
44F:→ bitlife: 省運算時間 11/08 13:22
45F:→ Gold740716: 但要用 {} ,用 () 會在子 shell 裡賦值沒有用 11/08 15:08
46F:→ bitlife: 查了一下, (list) 的return value是list的值,實際用前述 11/08 15:55
47F:→ bitlife: true false命令測試也確實如此 11/08 15:56
48F:→ bitlife: true && (false||true) || echo hello 不會印hello 11/08 15:57
49F:→ bitlife: true && (false||false) || echo hello 會印hello 11/08 15:58
50F:→ bitlife: 喔,我懂了,是指前面u大說的拿來assignment 11/08 16:00
51F:→ bitlife: 確實一律用 {} 比較不會搞混 11/08 16:01
52F:推 ucrxzero: 樓上大大是對的 11/08 18:26
53F:推 yoche2000: 推 學習了 11/09 01:19