作者gsuper (统计的巴比伦塔)
看板BioMedInfo
标题[问题] Microarray 的 Clustering
时间Fri Jul 16 18:07:49 2010
想请问一下
我手上有三组 datasets
计算 Fold change (Log ratio) 後
每一组 set都可粗分为 7 群
-3倍以下
-3倍 ~ -1.5倍
-1.5~0
0
0~1.5
1.5~3
3以上
我们认为 FC > 1.5 是显着
而 FC > 3 是强显着
当我把三组 ratio 排起来做各种 distance 的 clustering
发现结果都很难解释
请问我能否将以上 7 群 ratio data 转换成
-3 -2 -1 0 1 2 3 这 7 种数字
然後避开几何距离的分类
用无母数的方式 clustering?
因为我觉的这样比较直觉
可是我找不到 paper 来 support 这种做法....
诚心请教
--
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.239.247
1F:推 hajimels:你分群是想要看gene expression的pattern? 07/16 21:18
2F:→ hajimels:用ratio来画的话 gene之间用euclidean可能较适合 07/16 21:20
3F:→ auymle:看不懂你要做什麽 为什麽是用ratio value来做clustering? 07/17 13:36
4F:推 hajimels:同意auymle...不过他硬要做的话 我想只能用euclidean了 07/18 03:20
我手上第一组 set , 是合作对象做的实验 , 有 10 片 array --> FC_Ratio 1
另外两组是 GEO 抓来的 , 跟我们类似的实验 --> FC_Ratio 2
FC_Ratio 3
3 个 Ratio columns 合成一个矩阵
拿来比较相似度
本来我也觉得欧式距离是最佳选择
但跑 HCL 後看起来还是很乱
Kmeans 更不合理
相关距离里面跑最好的是 Kendall`s tao
但有点太粗糙 (大中小....XD)
这有点像是用 clustering 代替 Venn diagram 的感觉
※ 编辑: gsuper 来自: 140.113.239.247 (07/18 20:19)
※ 编辑: gsuper 来自: 140.113.239.247 (07/18 20:20)
5F:→ clickhere:我猜它要的是实验间的相似,而非各别gene的expression 07/19 09:54
6F:→ clickhere:可能要对各组normalize到相同的based line才行 07/19 09:55
7F:→ clickhere:什麽是无母数的方式clustering?? 07/19 09:56
8F:→ clickhere:把各组除以自行加总,或许比用ratio好. 07/19 09:57
9F:→ clickhere:10片是不同的样本,想要比较case&normal? 07/19 10:01