作者b6s (http://b6s.blogspot.com)
看板Programming
标题Re: 请问有关Hash演算法
时间Fri Aug 11 21:54:11 2006
※ 引述《Killercat (杀人猫™)》之铭言:
: ※ 引述《[email protected] (丁香鱼)》之铭言:
: : 请问各位专家
: : 目前常见的hash方法有 md5 checksum crc ...等等
: : 但是这几种方法 只要档案有稍许的不同...所算出来的hash value
: : 就会天差地远....
: : 想请问的就是 有哪个hash方法是
: : 假设影两个档案A和B 如果A 和B 的差异只有一点点(可能几个bit不同)
: : 然後有哪个hash方法所算出的hash value也是只有差异一些些!!
: 那个不叫hash, 那叫做特徵码
: 通常使用於病毒的变种防护上.
: 这东西很多防毒软体引擎都或多或少会设计一些这类型的特徵码
: 不过这基本上跟hash毫无关系, 只是把一些特徵index起来而已
: 因为病毒体积都不大(总不太可能有500mb的病毒吧? 这应该叫做恶意程式了)
: 所以"特徵"也比较少, 特徵码也不至於长到不能用的地步
: 如果你是拿来做一般档案编码的话, 那这个index所需要纪录的资料
: 远远不是hash能比的大小 =)
是的,那确实不是 hash 的用途,因为 hash 的基础是 pseudo random number。
你需要的是到 Google Scholar 找几个关键字(愈底下的愈粗略):
similarity (string or text, PCMan 提到的 edit distance 就是这类)
fingerprint (data mining)
text clustering (not computer cluster)
text classification
information extraction
information retrieval
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.105.131.104