作者sunflier (叮当)
看板Oversea_Job
标题Re: 请教一些面试问题
时间Sat Aug 25 15:16:21 2007
※ 引述《[email protected] (Go cubs!)》之铭言:
: ※ 引述《michaelz (michaelz)》之铭言:
: : 用开头字母的话大概会看到一堆http, www之类的东西..然後所有的东西都要放在同一个
: : partition, 用整个url算hash code可能会好一点
: 不知道有没有人想过用tree
: 以www.upenn.edu, www.cis.upenn.edu, www.ese.upenn.edu来说
: 看起来应该会像这样:
: edu - upenn - www
: - cis - www
: - ese - www
: 考虑到DNS的distribution, root node 如com, edu, org应该可省下不少空间
除了上述方式,再加上 Bloom filter 应该就可以省更多空间、时间了。
http://en.wikipedia.org/wiki/Bloom_filter
<Bloom filter>
A space-efficient probabilistic data structure that is used to
test whether an element is a member of a set.
False positives are possible, but false negatives are not.
--
http://blog.sunflier.com
科技新知、爆笑图文、理财心得
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.231.192.219