作者kener1988 (豆仔)
看板CSSE
標題Re: [問題] 分群的問題
時間Wed Jun 1 22:37:47 2011
※ 引述《jizzer5566 (陳雅姿噗滋)》之銘言:
: 假設在一個二維的空間有許多點
: 每個點有三種屬性的其中一種 分別是A或B或C屬性
: 我想藉由點與點的距離來做分群
: 希望在同一群裡面都是相同屬性
: 假設我分10群 取10個中心點
: 某1中心點為B屬性
: 那該群內的每個點我都預測為B屬性
: 再以 猜對的點數/全部點數 算正確率
: 我想請問一下
: 如果將分群數提升為20群甚至30群後
: 正確率反而下降了 是合理的嗎
: 其原因可能有哪些?
分群的演算法看起來向k-means 所以我用k-means來分析
假設你資料在二維空間中 長這樣好了
AAAAAAAAA* B*BBBBBBB* C*CCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC
當K越大時 每個cluster的半徑越小
因此 在屬性交集的地方 ex:如a和b交接處 與b和c交接處
原本k很小時 群的半徑大
即使有些離群值離群中心(上圖的A' B' C')很遠
還是可以正確的分群
但當K變大時 會發現 有些ABC(上圖的A* B* C*)離它們的中心點很遠
反而這些離群值彼此比較近 互相結合成cluster
正確性就下降了
以上是小弟的一點看法 如果有錯請各位多多包含
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.186.124
1F:推 jizzer5566:感謝你的講解 06/02 03:02
2F:推 dpi:恩...有些outlier會組成一群導致準確率下降 06/04 16:04
3F:→ dpi:因此還需要動態的去決定分群的個數會比較準確~~ 06/04 16:04