作者yoxem (Yoxem)
看板TW-language
標題[資料] 試用隱馬克夫鍊做台羅轉換漢字的程式
時間Wed Mar 20 20:29:32 2024
官話版摘要在下面
小弟算講是閩南語維基ê顧站工,最近hām有志討論講閩南語維基(主要用POJ/TL)
寫ê議題,我著想講敢有會當kā羅馬字轉做漢字ê方法?
因為tse hām輸入法揀字原理相siâng,我最近tshiau著輸入法自動揀字ê方法,
其中一个是Hidden Markov Model。
因為大學Markov鍊仔無學予好,所以著開始重頭學,提教育部ê辭典資料,轉做(TL-
漢字)ê平行語料,然後算出來文字轉移ê頻率,寫做一个Script:pakkau(tuì北溝
號ê),用Python,會當將教育部臺羅拼音轉做漢字。
毋過有無準ê所在:
INPUT: Iâ-soo kóng, Siōng-tè thiànn-thàng sè-kan-lâng
OUTPUT: 耶穌講,上帝疼痛世間人 --> OK
INPUT: "\"Tsì-bîng kah Tshun-kiau\" sī tsit tiâu kua\"
OUTPUT: "志明佮春嬌"是一條歌 --> OK
INPUT: koo iā bô phuānn tsiú ting-ē, tshun-hong tuì-bīn tshue
OUTPUT: 孤也無伴守燈下,春風對面初 --> XX
凡勢kap預測干焦考慮頂一字有關聯,可能語料傷過少。
目前干焦支援教育部羅馬字到教育部漢字。
官話摘要:之前和閩南語維基相關資源的相關的人員討論到閩南語維基百科使用全羅馬字
為主的情況,我想能不能用羅馬字轉為漢字來處理。
因為原理和輸入法常用的隱式馬克夫鍊類似,所以就用這個原理,利用教育部的詞典語料
修改成漢字—教育部台羅的平行語料,算文字轉移機率,寫一個Script,從教育部拼音
轉成漢字
可能因為僅考慮前一字,加上語料不多,所以正確率不是很高。
目前僅支援調符教育部拼音轉教育部建議漢字。
Link:
https://github.com/Yoxem/pakkau/tree/main
--
[8964路(延伸线)PTT→墙内]
票价:Free(<五毛人民币) 時刻:机动從PTT发车,单向行驶 (此簽名屬公有領域)
停靠站:PTT→民主化→六四天安门→自由门下载→毋忘六四→刘晓波→台湾独立→民运→
西藏独立→新疆独立→港独→九评共产党→法轮功→Tiananmen Massacre→Free Tibet→
占领中环→民主→真普选→南方街头运动→新公民运动→东突厥斯坦→湖南共和国→上访→
大纪元→胡耀邦→赵紫阳→Tank Man→北京之春→达赖喇嘛→六四真相→无界下载→墙内
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.96.245.216 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/TW-language/M.1710937779.A.036.html
※ 編輯: yoxem (27.96.245.216 臺灣), 03/20/2024 20:30:08
※ 編輯: yoxem (27.96.245.216 臺灣), 03/20/2024 20:33:54
※ 編輯: yoxem (27.96.245.216 臺灣), 03/20/2024 20:34:44
1F:推 MilchFlasche: 感動咱用技術鬥處理語文代誌 03/21 08:45
3F:→ MilchFlasche: 共鶴佬話Wikipedia全白話字做一个mirror site, 03/21 08:48
4F:→ MilchFlasche: 全轉漢字。毋閣伊个site這馬袂當用 03/21 08:48
5F:推 RungTai: 有神緊拜~ 03/21 22:53