作者mugicha (麥茶不含咖啡因)
看板Romances
標題[閒聊] 黑潔明-小肥肥的猛男日記+前傳 用字分析
時間Wed Oct 6 19:10:49 2021
內有不雅字眼,
未滿 18 歲之讀者及介意者請自行左轉,
感謝。
這個月的 WRN 數字解析專欄要來看一個言小之謎:
「
紅眼這群人到底有多愛講『狗屎』?」
或是說,「
紅眼的人真的愛講狗屎不愛講 Shit 嗎?」
這個主題的研究動機來自於言小板歷年來的諸多討論,
不乏「一堆狗屎看得出戲」、「我都在腦中自動轉成 Shit」之類的推文,
因此,取之於言小板、用之於言小板,這篇分析就同步發在批踢踢跟 WRN 了!
(而且批踢踢先打還可以賺批幣XD)
設定好研究問題之後來敘述一下研究資料跟研究方法,
這次蒐集的資料為黑潔明-小肥肥的猛男日記之 前傳(3) + 本傳(13),一共 16 本書,
並透過電子書搜尋功能來搜尋特定關鍵字各出現幾次,
其中前傳系列與本傳系列一二使用 PUBU 電子書,本傳系列三到九使用 Readmoo 電子書,
可能存有搜尋結果的誤差,但影響應該不大。
原先設定的關鍵字有:
Shit、狗屎、幹,
後來參考板上 a 板友貼文 [元宵] 眼熟跟煩躁的字眼
(#1KxQz09v) 之文章內容及推文,
將搜尋範圍放大為:
Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的,
並且分為「對話」以及「非對話」兩種形式,
前者為角色明白地向另一方說出,後者則非。
特例一:即使沒有「說」出來,但對方「聽」得到也算對話
特例二:已經說過一次而後在腦袋回想算是非對話
註一:狗屎運不算狗屎、吃屎也不算狗屎
註二:你他媽的算是他媽的、他媽的不算媽的
註三:王八不算王八蛋、王八烏龜蛋也不算王八蛋
註四:操不算幹
至於為什麼沒有老天、去你的、該死,
因為……
https://i.imgur.com/uXSh2KA.jpg
天殺的,這也太多了吧,該死。
粗略整理的圖表長這樣:
https://i.imgur.com/B6j7RgA.jpg
(計算誤差次數應該在 ±1 內)
事不宜遲,第一條我們就先來看 Shit 與狗屎!
https://i.imgur.com/jOJB0YE.jpg
可能跟部分板友們的印象不同:
紅眼的人是會講 Shit的!
並且到系列之五為止,Shit 出現次數多半高過狗屎,僅月光例外。
而溫柔大甜心與酷呆大黑鷹的小黃跟小黑是兩個乖寶寶,
整本書竟然完全沒出現 Shit 跟狗屎!
製圖比較:
https://i.imgur.com/I0JpQy6.jpg
結果是不是稍微有點驚訝呢?
這邊隱約可以感覺得出黑大有漸漸使用「狗屎」多於「Shit」的情況,
因此筆者在此多提供紅眼續作的系列前二供各位參考,
分別是:
深海(上)- Shit 0 次/狗屎 0 次
深海(下)- Shit 2 次/狗屎 1 次
罪愛(上)- Shit 0 次/狗屎 2 次 (某次是真的踩到狗屎,那個不算)
罪愛(下)- Shit 3 次/狗屎 3 次
可見深海是 Shit 派,罪愛是狗屎派,
剩下的我還沒買電子書我不知道,
以下開放板友斗內讓我買齊整系列的電子書(X
接著是我的一些小發現:
幹
1. 講「幹!」講得最多的是壞心大野狼(對話 3 次、非對話 1 次),
其次是美麗大浪子(對話 3 次),
且這兩本使用 Shit+狗屎 的次數亦最高,
剛好這兩本的主角鄉土味都比較重(XDDD)
王八蛋
2. 月光出現大量的「王八蛋」,主要是巴如月在形容前任,
莫森跟巴如月本身口語上較少使用。
3. 賊頭大老闆的「王八蛋」大致上是小嵐罵韓武麒用,
甚至連韓賊頭自己都說:「老是王八蛋來、王八蛋去的,妳罵不厭,我都聽煩了!」
4. 悶燒大天使也出現了大量的「王八蛋」,約一半是紅紅敘述伊凡(+韓賊頭)用,
這本亦出現了極為特別的「王八烏龜蛋」用法一次。
與眾不同的小黃小黑
5. 溫柔大甜心是真的溫柔,粗話統計為 0,連「該死」都用得不多,
僅曾經出現一次「王八」(沒列入統計)。
6. 酷呆大黑鷹是第二少粗話的,裡面出現的「王八蛋」多指壞人,
僅有一次是方水淨在想念屠鷹那個王八蛋。
比較少見的特殊用詞
7. 除前述的王八烏龜蛋以及王八以外,可愛大賤男出現過一次吃屎,
寶貝大猛男(上)出現過王八、寶貝大猛男(中)出現過「操」,
但罵「操」的人不是阿震,是韓賊頭。
天殺的
8. 「天殺的」其實很少出現,密碼最多,有 8 次,後面有越來越少的趨勢。
他媽的
9. 壞心大野狼有滿多「他媽的」,鳳力剛的內心話不時會出現他媽的。
10. 口語上最常使用「他媽的」的是耿野,
事實上,賊頭大老闆裡面出現的「他媽的」有一半是耿野講的,
而耿野帶大的小嵐也會講上幾句,
食物鏈是:耿野到韓武麒這本罵髒話,韓武麒再到其他本罵髒話XDDDD
如果把所有「Shit、狗屎、幹、媽的、他媽的、王八蛋、天殺的」加總,
會發現……
https://i.imgur.com/oZTsVtQ.jpg
耿野你他媽的也太髒了吧!
--
Чи
миний
инээмсэглэл
минь
болсон
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.241.245 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Romances/M.1633518654.A.02F.html
1F:推 landing : 如此認真的狗屎分析! 10/06 19:36
狗屎,時間都浪費在這上面了!
2F:推 hopelong : 耿野是口頭上的髒,而鳳力剛是實際上(無誤) 這篇 10/06 19:39
3F:→ hopelong : 分享也太認真! 10/06 19:39
鳳力剛的嘴也是滿髒的哈哈哈哈
4F:推 beautyeye : 太用心了!!! 10/06 19:42
5F:推 godofsex : 推 10/06 19:57
6F:推 peiton : 真是太有趣了! 10/06 20:09
7F:推 polarday : 推分析!看到圖表就笑了XDDDD 10/06 20:14
8F:推 lupins : 推好文!XD 10/06 20:38
9F:推 jansec : 這篇讓我想到Friends的Janice... 10/06 20:44
Oh.My.God.
10F:推 VanessaHazi : 這要貼給黑大看吧XDD 推超用心! 10/06 21:11
11F:推 ahurak : 推分析!超有趣的 10/06 21:29
12F:推 mieki : 推分析 10/06 21:52
13F:推 angelena : 推分析,太精闢了一定要推 10/06 22:06
14F:推 ellie0224 : 看完統計就想再回去翻翻書了,哈哈哈~ 10/06 22:09
大家快來找尋 Shit 的蹤跡(????
15F:推 kxam : 推麥茶大,這分析太厲害了 10/06 22:11
有興趣的板友可以參考 WRN 上的數字解析專欄,
目前總共有五篇,分別討論了字數、文案、書名跟用字,
我自己寫得滿開心的XDD
https://www.wrn.tw/category/vocabulary14/term/5904
※ 編輯: mugicha (125.224.241.245 臺灣), 10/06/2021 22:52:27
16F:推 threetimes : 認真給推!!! 10/06 23:01
17F:推 milkteawing : 推分析 這也太專業了吧 哈哈哈 10/06 23:11
18F:推 SauweiLan : 推分析XD 10/07 02:09
19F:推 readers : 推分析,好有趣! 10/07 05:50
20F:推 nk891101 : 推分析~ 10/07 06:56
21F:推 babyjuicy : 又想起阿光了,嗚嗚嗚嗚阿光快回來~~~ 10/07 08:36
22F:推 landing : 看到"該死"的搜尋畫面真的噴笑 10/07 08:56
23F:推 evelyn0559 : 太好笑了必須推XDDDD! 10/07 11:43
24F:推 KyKiske : 這個表超可愛的啦,哈哈哈 10/07 12:37
竟然會覺得寫有 Shit 跟狗屎的表格可愛XDDDDD
其實我應該要整理一下「都是誰在說髒話」的,不然把韓武麒算在阿震頭上好無辜XDD
但是這要一句一句看好麻煩,乾脆延到下一次專欄再來寫XDD
如果我之後有把紅眼之七前的書都買齊,就連紅眼的一起統計好了~
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 12:56:20
25F:推 neak : 哈哈哈 實在太用心了!還是好想知道該死的到底有多 10/07 13:10
26F:→ neak : 少 10/07 13:10
噢,該死,該死真的太他媽的多了XDDD
下一篇文我會隨便用電子書功能算一下附上XDDD
27F:推 teatime1010 : 太強大的統計啦! 10/07 13:29
28F:推 xien721 : 笑死這統計xdd 10/07 14:11
29F:推 amy1985014 : 推用心統計 10/07 14:47
30F:推 eveno : 天啊也太認真了吧哈哈 10/07 16:11
31F:推 ab850412 : 笑死 這一切的源頭都是耿野XDDD 10/07 16:55
我再往前查了暴躁公爵,沒有 Shit,只有兩次狗屎,
耿叔真的是最髒沒有之一XDDD
32F:推 landing : 黑大fb貼了XDD 10/07 17:32
天啊誠惶誠恐XDDD
其他的讀者:超認真分析魔影角色登場順序跟關係
我:分析紅眼的人到底講了多少次狗屎
XDDDDDDDDDDDDDD
不知道黑大粉專的讀者看不看得到這邊,但我一起回應:
1. 我會用python沒錯,但這篇分析只有簡單用到excel XDD
沒辦法,人工智慧沒辦法幫我算他們講了多少髒話,
只能靠我自己工人智慧用電子書查詢功能慢慢看再登記,
跟紅眼他們家的科技能力差得遠啦XDDDDDDDD
不過我在 WRN 的其他專欄有用到跟機器學習有關的技術,像是斷詞跟分群,
如果要進一步分析什麼作者語言使用,就會牽涉到著作權問題,
也只能找公開的文案或是書名來玩~
2. 整理這個意外地花時間,不過等我買齊紅眼後應該可以再寫一篇!
到時候就會彙整哪些人講了多少次的 Shit 了(???
但該死真的太他媽的多了,可能就隨便整理一下XDD
還有人想看什麼關鍵字也可以說(???
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 18:24:26
33F:推 xavier0802 : 太用心XDD 10/07 17:50
34F:推 stickpig : 超猛XDDDDDDDDDy 10/07 17:51
35F:推 amypeng : 在黑大fb看到分享,跑來看正文,太強大了 10/07 18:25
36F:推 aivy27 : 笑死XDDDDDDD 10/07 18:46
37F:推 geminim : 推~這個分析文太爆笑了 10/07 20:53
38F:推 kcenya : 這分析太強了,耿野是一切的源頭—系列&髒話都是 10/07 21:57
39F:推 MAGGIE99 : 論文 10/07 22:04
40F:推 galaxymoon : 請問柱狀圖顏色是咖屎色是巧合還是特別選的XD 10/07 22:11
41F:→ mugicha : excel 的預設顏色是藍色,所以我是不是故意挑的呢XD 10/07 22:31
嘿嘿(?
42F:推 LucyH : 好好看好好看好好看 10/07 22:34
43F:推 homefisher : 小黑不說話所以沒髒話(誤 10/07 22:46
XDDDD
沒錯,帕哥那本也是因為語言不通所以很少髒話XDD
大老粗(下)的兩次 Shit 都是阿浪說的XDDD
44F:→ homefisher : 就閱讀帶入感而言 看到狗屎真的都自動轉換了 罵狗屎 10/07 22:48
45F:→ homefisher : 實在太奇怪 幹自然多了(稱讚? 10/07 22:48
46F:推 idxxxx : 朝聖推 10/07 22:48
((換個位置))
※ 編輯: mugicha (125.224.241.245 臺灣), 10/07/2021 23:02:11
47F:推 aquariusec : 朝聖推XD 超用心分析! 10/07 23:05
48F:推 rainlyblue : 超用心啊! 一看文開頭就立刻笑出來了 XD 10/08 09:13
49F:推 pearlmaggie : 超認真狗屎分析太有趣了 哈哈哈哈 10/08 10:14
50F:推 AppleAlice : 真的笑死,從耿野開始帶壞下一代!! XDDD 10/08 13:03
51F:推 garten : 太認真XDD 推 10/08 16:28
52F:推 zaqzz : 超用心的整理 笑死XD 10/08 23:53
53F:推 a28956325 : 朝聖推 在廁所看到笑死哈哈哈哈 10/09 03:26
54F:推 lovelydelta : 認真給推,黑大應該看得很開心 10/09 12:17
55F:推 landing : 黑大昨天直播提到笑得超開心 10/09 13:09
我回去補直播了!
然後,對,我上班壓力很大。
哈哈哈哈哈哈哈哈哈哈哈哈哈
56F:推 jansec : 覺得麥茶大的分析文集結一下 可以變成言情版的 暢銷 10/09 19:56
57F:→ jansec : 書密碼:人工智慧帶我們重新理解小說創作 XD 10/09 19:57
58F:→ jansec : 剛看完這本書就馬上想到你的分析文XDDD 10/09 19:57
哦哦哦!WRN 的 limejuice 同學也提過這本書~
https://www.wrn.tw/comment/46034#comment-46034
透過電腦語言研究人類語言是我很喜歡的事XDDD
機器學習可以做很多研究,也確實做了很多研究,
像是從紅樓夢前後的文字去分析後四十章是否為曹雪芹所筆、
或是去找出作者的獨特寫作手法、常用的文字等等,
牽涉到文字向量化、機率等等等等,好喜歡>////<
《暢銷書密碼》這本書的出版年是 2016,
而自然語言處理 (NLP, natural language processing)領域在 2018 年後有個大躍進,
所以可以玩得東西就又更多了~
所謂大躍進是 google 提出了一個叫 transformer 的 NLP 架構,
此後這個領域直接進入嶄新的一頁XDD
雖然我的專欄之路走得很緩慢(誠徵跟我一樣願意浪費生命做資料前處理的夥伴XD),
但我接下來真的會碰比較多 NLP,可能就足以做這種人工智慧的分析了!
最後的目標甚至是自然語言生成 (NLG, natural language generation),
不過大概明年才會連載到那吧XDDDDD
NLG 的部分可以參考下方這個用語言模型生成金庸小說的例子:
https://leemeng.tw/gpt2-language-model-generate-chinese-jing-yong-novels.html
關於模型運作方式的敘述全部都可以跳過,
重點是結果滿好笑的,我很喜歡XDDDDDDDD
※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 21:05:52
59F:推 jansec : 麥茶大你上面寫的有九成我都看不懂XD 但樂見分析 10/09 21:12
60F:→ jansec : 這種分析 就暢銷書密碼的結論 可以發現讀者的心理與 10/09 21:13
61F:→ jansec : 文化 比方格雷和達文西密碼故事結構給讀者的情感曲 10/09 21:13
62F:→ jansec : 線一樣 書名都是女孩代表女人跳脫傳統形象 甚至把 10/09 21:14
63F:→ jansec : 暴力帶家庭這個私領域 而這些 女孩 書名的作者都還 10/09 21:15
64F:→ jansec : 沒找出結局的最佳情感弧線 象徵 書名有女孩的還會暢 10/09 21:16
65F:→ jansec : 銷 這些點若能看你分析羅曼史應該也很有看頭 10/09 21:16
66F:→ jansec : 我個人猜 台言還沒找出新的暢銷書公式 但國外有黑暗 10/09 21:17
67F:→ jansec : 羅曼史了(下一篇找書文發現的) 希望真的改天能不要 10/09 21:18
68F:→ jansec : 再一堆穿越了 10/09 21:18
69F:推 lanagrass : 笑死 在幹嘛啦XDDDD 10/09 23:49
※ 編輯: mugicha (111.248.102.180 臺灣), 10/09/2021 23:59:16
70F:推 sally77917 : 推分析 10/10 12:22
71F:推 mindykuo : 從黑大粉絲頁過來朝聖推 10/10 21:08
72F:推 gigicarter : 好認真還做表格XD 10/11 22:13
73F:推 AKTXZ16 : 認真分析就給推! 10/14 09:14
74F:推 ruiko : 太厲害了 認真推 10/14 18:25
75F:推 j150200 : 這統計又認真又好笑 10/14 21:05
76F:推 carol123 : 該死好好笑,想看該死的統計 10/15 15:10
77F:推 squeeze323 : 我到底看了什麼XDDDDD 推分析! 10/15 20:27
78F:推 morning9 : 被分析笑死 10/17 10:45
79F:推 AlwaySleepy : 好有趣的分析,黑大臉書的對話也好笑 10/21 00:36
80F:推 xxshoxx : 太強了!不推不行啊XDDDD 10/22 23:28
81F:推 wsid : 哈哈哈,你好煩。 10/24 02:24
82F:推 wsid : 也太有趣 10/24 02:25
83F:推 cabuccino : 朝聖推!超認真! 10/25 15:58
84F:推 imayoung : 超認真!很有趣的統計XDD 10/29 00:53
85F:推 CHUANx2 : 別浪費才能! 10/30 23:24
86F:推 idrilann : 朝聖推XDDDD 11/26 19:50
87F:推 dawn0733 : 專業到我五體投地 推 12/05 22:27
88F:推 rita4647 : 只能給認真推了 01/12 23:56
89F:推 yannjen : 朝聖推 02/06 23:41