作者lovepork (我愛豬肉不愛牛肉)
看板DataScience
標題[討論] 如何計算兩個不同欄的相似度?
時間Sat Sep 7 14:50:04 2024
各位好,假設我有兩個不同欄目a, b
a共有十列關鍵字
b列也有十列,或是九列關鍵字不等。
請問,要怎麼計算a,b兩欄的相似度?有沒有最一般的做法可以建議?
每一欄關鍵字間的順序不重要,不需要被考慮。
萬分感謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.65.47.19 (新加坡)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1725691806.A.F3F.html
1F:→ chang1248w: apriori? 09/07 18:53
2F:推 jigfopsda: 可以看看這個相似度最後的用途是什麼,再來決定要用什 09/07 21:56
3F:→ jigfopsda: 麼方法算,知道用途也可以有關鍵字拿來 google 09/07 21:56
4F:推 ptta: Levenshtein Distance 用了一陣子,差強人意..但也找不到更 09/07 22:04
5F:→ ptta: 好的替代方案 09/07 22:04
6F:推 melancholy07: Jaccard similarity? 09/09 16:06
7F:→ lovepork: 非常感謝各位的資訊 我目前先用一個套件 two-lists simi 09/11 14:39
8F:→ lovepork: liarity 有需要我再試看看各位建議的方法 09/11 14:40