作者davekong ( )
看板Google
标题Re: [问题] 请问 tag 和断字的问题?
时间Mon Aug 14 01:47:00 2006
: 2. 在资讯检索时,中文搜寻的缺点「断字」(不确定是不是这麽说),
: 是什麽意思?解决之道?
中文断词 Word Segmentation 用google找应该很多才对...
问题很简单 举个例子
"土地公有政策" 可能会被断成
1. 土地 公有 政策
2. 土地公 有 政策
到底哪种断词的方法是对使用者有意义的呢?这就是断词的研究罗。
解决之道,一般最简单的是用2-gram indexing,也就是两个字当做一个词来索引。
举个例子
"土地公有政策" 可以得 土地 地公 公有 有政 政策 这些词 然後索引到资料库内
之後使用者只要查 土地 或 政策 就可以找到这个句子。
简单的方法缺点当然不少,相信各位应该看的出来。
比较复杂的方法就是用机率模型,比看哪种pattern机率高。
以上简单说明希望可以帮上你的忙~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.123.217.51
1F:推 chive:谢谢。了解大概了。:-) 08/15 03:44