作者Baudelaire (遗憾太常。)
看板Google
标题Re: [问题] 明明有那封信却搜寻不到
时间Fri Aug 4 02:51:11 2006
技术上的原因是,
处理中文时,会先把整篇文章indexing下来,
而如果做decompound的时候没有考虑到那些词/UTF-8断字出问题(这比较不会发生),
那搜寻的时候当然就找不到了。
---
简单说,中文搜寻是这样做的:
如果corpus是「家庭图书证」,
我们可以拆成 家 庭 图 书 证 家庭 图书 图书证 家庭图书 家庭图书证,
这当然不能用排列组合的方式去做组合,一般都是用自己的字典;
如果用排列组合来处理,随便就是个 O(N!) 的问题,
整个就死在那里了...。
有了这些字词的集合以後,就可以把这些结果index起来,
(据说Google内部的实做是用MySQL跟Oracle)
等到你要搜寻的时候,就把这个 DB 的东西丢给你。
至於牵扯到clustering端的技术,其实跟web search比较有关,
如果只是GMail里的信件,clustering应该还是有用,
不过比起来就没那麽要求了,毕竟整个网路上的资料,
跟GMail里区区2G的玩意比起来根本不能比。
※ 引述《SYOTEN (旷工的矿工)》之铭言:
: 我的Gmail里有一封信
: 主题是: 家庭图书证
: 搜寻图书 可以搜寻得到
: 没想到用图书证三个字却搜寻不到
: 我还仔细检查过字有没有打错
: 甚至直接从那封信的主题上复制这三个字去搜寻
: 一样搜寻不到
: 怎麽会这样?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 207.126.230.225
1F:推 cwlin:推 08/04 02:55
2F:推 chris234:应该是O(n^2)吧...虽然也是很大XD 08/04 17:18
3F:推 Baudelaire:sigma(i=1..n){ C(n,i)} 所以是N!啊? 08/05 01:41
4F:推 Baudelaire:不对,这要跟字跟字有没有相连有关,吼,我数学太烂... 08/05 01:44