作者yoxem (Yoxem)
看板TW-language
标题[资料] 试用隐马克夫链做台罗转换汉字的程式
时间Wed Mar 20 20:29:32 2024
官话版摘要在下面
小弟算讲是闽南语维基ê顾站工,最近hām有志讨论讲闽南语维基(主要用POJ/TL)
写ê议题,我着想讲敢有会当kā罗马字转做汉字ê方法?
因为tse hām输入法拣字原理相siâng,我最近tshiau着输入法自动拣字ê方法,
其中一个是Hidden Markov Model。
因为大学Markov链仔无学予好,所以着开始重头学,提教育部ê辞典资料,转做(TL-
汉字)ê平行语料,然後算出来文字转移ê频率,写做一个Script:pakkau(tuì北沟
号ê),用Python,会当将教育部台罗拼音转做汉字。
毋过有无准ê所在:
INPUT: Iâ-soo kóng, Siōng-tè thiànn-thàng sè-kan-lâng
OUTPUT: 耶稣讲,上帝疼痛世间人 --> OK
INPUT: "\"Tsì-bîng kah Tshun-kiau\" sī tsit tiâu kua\"
OUTPUT: "志明佮春娇"是一条歌 --> OK
INPUT: koo iā bô phuānn tsiú ting-ē, tshun-hong tuì-bīn tshue
OUTPUT: 孤也无伴守灯下,春风对面初 --> XX
凡势kap预测干焦考虑顶一字有关联,可能语料伤过少。
目前干焦支援教育部罗马字到教育部汉字。
官话摘要:之前和闽南语维基相关资源的相关的人员讨论到闽南语维基百科使用全罗马字
为主的情况,我想能不能用罗马字转为汉字来处理。
因为原理和输入法常用的隐式马克夫链类似,所以就用这个原理,利用教育部的词典语料
修改成汉字—教育部台罗的平行语料,算文字转移机率,写一个Script,从教育部拼音
转成汉字
可能因为仅考虑前一字,加上语料不多,所以正确率不是很高。
目前仅支援调符教育部拼音转教育部建议汉字。
Link:
https://github.com/Yoxem/pakkau/tree/main
--
[8964路(延伸线)PTT→墙内]
票价:Free(<五毛人民币) 时刻:机动从PTT发车,单向行驶 (此签名属公有领域)
停靠站:PTT→民主化→六四天安门→自由门下载→毋忘六四→刘晓波→台湾独立→民运→
西藏独立→新疆独立→港独→九评共产党→法轮功→Tiananmen Massacre→Free Tibet→
占领中环→民主→真普选→南方街头运动→新公民运动→东突厥斯坦→湖南共和国→上访→
大纪元→胡耀邦→赵紫阳→Tank Man→北京之春→达赖喇嘛→六四真相→无界下载→墙内
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.96.245.216 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1710937779.A.036.html
※ 编辑: yoxem (27.96.245.216 台湾), 03/20/2024 20:30:08
※ 编辑: yoxem (27.96.245.216 台湾), 03/20/2024 20:33:54
※ 编辑: yoxem (27.96.245.216 台湾), 03/20/2024 20:34:44
1F:推 MilchFlasche: 感动咱用技术斗处理语文代志 03/21 08:45
3F:→ MilchFlasche: 共鹤佬话Wikipedia全白话字做一个mirror site, 03/21 08:48
4F:→ MilchFlasche: 全转汉字。毋阁伊个site这马袂当用 03/21 08:48
5F:推 RungTai: 有神紧拜~ 03/21 22:53