作者Baudelaire (遗憾太常。)
看板Google
标题Re: [问题] 请问 tag 和断字的问题?
时间Sun Aug 13 12:05:51 2006
相关度当然跟字与字之间的距离有关;
有兴趣可以找看看 tf-idf、information theory的论文来看。
比如说 I went to Yankee Stadium, where the baseball history lives.这句话,
baseball 跟Yankee的关系强不强呢?在information theory的角度来看,
这个字的相关性在三个字之间,当然比 "baseball team Yankees" 来得低;
不过要比起两个句子分别提到,当然还是重要很多。
还有,Mariah Carey应该会是字典里的字,作POS时应该要抓出来的。
如果你问的是information retrieveal,那问题应该是tokenize;
有没有一个好的dictionary, 怎麽作part-of-speech当然是很困难的;
因为中文没有欧美语系的字间间隔,所以要怎麽判定这是字/词自然困难很多;
其实类似的问题德文也有;德文也有组合字的文法,
不过作decompound当然比中文整个tokenize来得简单多了。
解决之道?我如果能全部解决里面的问题,我早就去Google了...。 XD
※ 引述《chive (上!上!上!)》之铭言:
: 不知道适不适合在此发问,不适合将自删
: -------------------------------------
: 1. Blog, 网摘(社会书签),Flickr...etc.
: 都有提供 tag(标签)的功能,通常每个标签间以空一格来区分,
: 如果是外国人名呢? Ex:Mariah Carey,
: 这样是算两个标签(Mariah 和 Carey)还是一个(Mariah Carey)呢?
: 如果是前者只要标签有 Mariah 或 Carey的结果都会被搜寻出,
: 搜寻结果不是变多了但是相关度降低吗?
: 2. 在资讯检索时,中文搜寻的缺点「断字」(不确定是不是这麽说),
: 是什麽意思?解决之道?
: (我用google搜寻过了,但是还是一头雾水)
: 谢谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 24.6.214.146
1F:推 ckuo:推information theory...最基础的理论...大家好好念数学吧XD 08/13 17:17
2F:推 chive:先谢谢回答。嗯,你写得很清楚我看得很模糊,不太懂耶??!! 08/13 23:33