作者gsuper (統計的巴比倫塔)
看板BioMedInfo
標題[問題] Microarray 的 Clustering
時間Fri Jul 16 18:07:49 2010
想請問一下
我手上有三組 datasets
計算 Fold change (Log ratio) 後
每一組 set都可粗分為 7 群
-3倍以下
-3倍 ~ -1.5倍
-1.5~0
0
0~1.5
1.5~3
3以上
我們認為 FC > 1.5 是顯著
而 FC > 3 是強顯著
當我把三組 ratio 排起來做各種 distance 的 clustering
發現結果都很難解釋
請問我能否將以上 7 群 ratio data 轉換成
-3 -2 -1 0 1 2 3 這 7 種數字
然後避開幾何距離的分類
用無母數的方式 clustering?
因為我覺的這樣比較直覺
可是我找不到 paper 來 support 這種做法....
誠心請教
--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
1F:推 hajimels:你分群是想要看gene expression的pattern? 07/16 21:18
2F:→ hajimels:用ratio來畫的話 gene之間用euclidean可能較適合 07/16 21:20
3F:→ auymle:看不懂你要做什麼 為什麼是用ratio value來做clustering? 07/17 13:36
4F:推 hajimels:同意auymle...不過他硬要做的話 我想只能用euclidean了 07/18 03:20
我手上第一組 set , 是合作對象做的實驗 , 有 10 片 array --> FC_Ratio 1
另外兩組是 GEO 抓來的 , 跟我們類似的實驗 --> FC_Ratio 2
FC_Ratio 3
3 個 Ratio columns 合成一個矩陣
拿來比較相似度
本來我也覺得歐式距離是最佳選擇
但跑 HCL 後看起來還是很亂
Kmeans 更不合理
相關距離裡面跑最好的是 Kendall`s tao
但有點太粗糙 (大中小....XD)
這有點像是用 clustering 代替 Venn diagram 的感覺
※ 編輯: gsuper 來自: 140.113.239.247 (07/18 20:19)
※ 編輯: gsuper 來自: 140.113.239.247 (07/18 20:20)
5F:→ clickhere:我猜它要的是實驗間的相似,而非各別gene的expression 07/19 09:54
6F:→ clickhere:可能要對各組normalize到相同的based line才行 07/19 09:55
7F:→ clickhere:什麼是無母數的方式clustering?? 07/19 09:56
8F:→ clickhere:把各組除以自行加總,或許比用ratio好. 07/19 09:57
9F:→ clickhere:10片是不同的樣本,想要比較case&normal? 07/19 10:01