作者os653 (allstar)
看板Python
标题[问题] 中文转注音
时间Sat Sep 29 14:17:14 2012
目前使用查表法,但因为中文会有破音字,光查字表好像不够
举例来说,我希望像这样
>>> parse('中文')
>>> 'ㄓㄨㄥㄨㄣˊ'
但实际上是这样
>>> parse('中文')
>>> 'ㄓㄨㄥˋㄨㄣˊ'
请问有没有办法解决?或是有没有词表可用呢?
目前是使用 OXIM 的表,只有注音的字表和好像是仓颉的字表...
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.46.142.159
1F:→ tjjh89017:不然就是建常用表,然後再去修正破音字? 09/29 15:11
2F:→ os653:自己建表工作量过大,不太可能 09/29 15:33
3F:推 a822305877:丢GOOGLE翻译 然後爬他的注音XD 09/29 16:15
4F:推 changyuheng:可以查线上字典 09/29 19:02
5F:→ os653:有没有除了查线上的方式呢?实在不太可靠 Q_Q 09/29 19:07
6F:推 kewang:中研院语料库 09/30 00:45
7F:→ os653:中研院语料库好像没有拼音耶... 09/30 00:55
8F:推 changyuheng:把线上字典爬下来?教育部国语辞典应该可靠吧 09/30 01:30
9F:→ os653:最後拿OXIM+汉语口语语料库词频表+现代汉语常用词表做大杂烩 10/01 00:39
10F:→ os653:结果有好点了,纯粹靠查表还是有极限在 10/01 00:41
11F:推 mjhsieh:我昨天做的跟你一样 10/01 13:10
13F:→ mjhsieh:但是我只找最常出现的字音,完全跳过词 10/01 13:12
14F:→ mjhsieh:当然如果你要做到完全的,就跟作输入法一样费工.... 10/01 13:13
15F:推 god987412365: 我的状况是只能打注音,不会变国字啊啊啊 10/01 13:55