作者kener1988 (豆仔)
看板CSSE
标题Re: [问题] 分群的问题
时间Wed Jun 1 22:37:47 2011
※ 引述《jizzer5566 (陈雅姿噗滋)》之铭言:
: 假设在一个二维的空间有许多点
: 每个点有三种属性的其中一种 分别是A或B或C属性
: 我想藉由点与点的距离来做分群
: 希望在同一群里面都是相同属性
: 假设我分10群 取10个中心点
: 某1中心点为B属性
: 那该群内的每个点我都预测为B属性
: 再以 猜对的点数/全部点数 算正确率
: 我想请问一下
: 如果将分群数提升为20群甚至30群後
: 正确率反而下降了 是合理的吗
: 其原因可能有哪些?
分群的演算法看起来向k-means 所以我用k-means来分析
假设你资料在二维空间中 长这样好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
当K越大时 每个cluster的半径越小
因此 在属性交集的地方 ex:如a和b交接处 与b和c交接处
原本k很小时 群的半径大
即使有些离群值离群中心(上图的A' B' C')很远
还是可以正确的分群
但当K变大时 会发现 有些ABC(上图的A* B* C*)离它们的中心点很远
反而这些离群值彼此比较近 互相结合成cluster
正确性就下降了
以上是小弟的一点看法 如果有错请各位多多包含
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.230.186.124
1F:推 jizzer5566:感谢你的讲解 06/02 03:02
2F:推 dpi:恩...有些outlier会组成一群导致准确率下降 06/04 16:04
3F:→ dpi:因此还需要动态的去决定分群的个数会比较准确~~ 06/04 16:04