作者lovepork (我爱猪肉不爱牛肉)
看板DataScience
标题[讨论] 如何计算两个不同栏的相似度?
时间Sat Sep 7 14:50:04 2024
各位好,假设我有两个不同栏目a, b
a共有十列关键字
b列也有十列,或是九列关键字不等。
请问,要怎麽计算a,b两栏的相似度?有没有最一般的做法可以建议?
每一栏关键字间的顺序不重要,不需要被考虑。
万分感谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.65.47.19 (新加坡)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1725691806.A.F3F.html
1F:→ chang1248w: apriori? 09/07 18:53
2F:推 jigfopsda: 可以看看这个相似度最後的用途是什麽,再来决定要用什 09/07 21:56
3F:→ jigfopsda: 麽方法算,知道用途也可以有关键字拿来 google 09/07 21:56
4F:推 ptta: Levenshtein Distance 用了一阵子,差强人意..但也找不到更 09/07 22:04
5F:→ ptta: 好的替代方案 09/07 22:04
6F:推 melancholy07: Jaccard similarity? 09/09 16:06
7F:→ lovepork: 非常感谢各位的资讯 我目前先用一个套件 two-lists simi 09/11 14:39
8F:→ lovepork: liarity 有需要我再试看看各位建议的方法 09/11 14:40