作者os653 (allstar)
看板Python
標題[問題] 中文轉注音
時間Sat Sep 29 14:17:14 2012
目前使用查表法,但因為中文會有破音字,光查字表好像不夠
舉例來說,我希望像這樣
>>> parse('中文')
>>> 'ㄓㄨㄥㄨㄣˊ'
但實際上是這樣
>>> parse('中文')
>>> 'ㄓㄨㄥˋㄨㄣˊ'
請問有沒有辦法解決?或是有沒有詞表可用呢?
目前是使用 OXIM 的表,只有注音的字表和好像是倉頡的字表...
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.46.142.159
1F:→ tjjh89017:不然就是建常用表,然後再去修正破音字? 09/29 15:11
2F:→ os653:自己建表工作量過大,不太可能 09/29 15:33
3F:推 a822305877:丟GOOGLE翻譯 然後爬他的注音XD 09/29 16:15
4F:推 changyuheng:可以查線上字典 09/29 19:02
5F:→ os653:有沒有除了查線上的方式呢?實在不太可靠 Q_Q 09/29 19:07
6F:推 kewang:中研院語料庫 09/30 00:45
7F:→ os653:中研院語料庫好像沒有拼音耶... 09/30 00:55
8F:推 changyuheng:把線上字典爬下來?教育部國語辭典應該可靠吧 09/30 01:30
9F:→ os653:最後拿OXIM+漢語口語語料庫詞頻表+現代漢語常用詞表做大雜燴 10/01 00:39
10F:→ os653:結果有好點了,純粹靠查表還是有極限在 10/01 00:41
11F:推 mjhsieh:我昨天做的跟你一樣 10/01 13:10
13F:→ mjhsieh:但是我只找最常出現的字音,完全跳過詞 10/01 13:12
14F:→ mjhsieh:當然如果你要做到完全的,就跟作輸入法一樣費工.... 10/01 13:13
15F:推 god987412365: 我的狀況是只能打注音,不會變國字啊啊啊 10/01 13:55