作者Arim (Arim5566)
看板Prob_Solve
标题[问题] 问一个分群的问题
时间Fri Aug 26 23:16:37 2011
※ [本文转录自 CSSE 看板 #1ELxR3XF ]
作者: Arim (Arim5566) 看板: CSSE
标题: [问题] 问一个分群的问题
时间: Fri Aug 26 23:07:42 2011
各位板友好
小弟最近碰到一个分群的问题
首先我有一个term-by-document的matrix
假设我有8个term是A B C D E F G H
想利用cos similarity对这8个term做分群
分群的条件是群内的任两个term的cos similarity都大於等於门槛值
例如最後分出来的最大的两群为(A B C D) 以及 (F G H)
群内的任意两个term的cos similarity都大於等於门槛值
但是目前能想到的方法只有暴力法
例如先找跟A的cos similarity大於等於门槛值的term
可以先找到(A B C D E)这一个群,这时候就跑回圈检查B C D E的相似度
在回圈的过程中发现B跟E不相似,所以要把E或B拿掉,如果把E拿掉的话,
会变成(A B C D),之後检查C跟D也符合条件,就输出(A B C D)这一个群,
但如果把B拿掉的话,会变成(A C D E),但可能之後的检查过程中发
现C跟E又不相似,之後把C拿掉,接着D跟E又不相似,之後把D拿掉,到最後只会
剩下(A E),但是(A E)这一群并不是最大的...请问有什麽有效率的演算法有办法
解决目前我遇到的这个问题嘛?
我觉得这问题应该跟传统利用cos similarity做文件分群是一样的演算法
只是一直找不到该演算法
谢谢指教
--
~宅男的四个徵兆~
∠□ ○ ! * \○/ ★ (○ ?
╦╦└□ " ○□═ □ □>
║║√√ ╦══╦ ∥ |\
一回家就上PTT 每天想正妹 以当好人为乐 忘记正妹亏欠自己
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.32.197.57
※ 编辑: Arim 来自: 114.32.197.57 (08/26 23:09)
※ 编辑: Arim 来自: 114.32.197.57 (08/26 23:10)
※ 编辑: Arim 来自: 114.32.197.57 (08/26 23:11)
※ 编辑: Arim 来自: 114.32.197.57 (08/26 23:13)
※ 编辑: Arim 来自: 114.32.197.57 (08/26 23:13)
--
~宅男的四个徵兆~
∠□ ○ ! * \○/ ★ (○ ?
╦╦└□ " ○□═ □ □>
║║√√ ╦══╦ ∥ |\
一回家就上PTT 每天想正妹 以当好人为乐 忘记正妹亏欠自己
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.32.197.57
※ 编辑: Arim 来自: 114.32.197.57 (08/27 00:08)
1F:推 LPH66:提示: 其实你只要知道任两个 term 是不是大於门槛值即可 08/27 00:14
2F:→ LPH66:剩下的是 clique problem 08/27 00:14
3F:推 LPH66:然後这里是一桶冷水: clique problem 是 NP-Complete... 08/27 00:16