作者gsuper (数理统计-九阳真经)
看板BioMedInfo
标题Fw: [问题] 连锁不平衡的计算
时间Sun Nov 6 19:42:34 2011
※ [本文转录自 Statistics 看板 #1EjMcjPu ]
作者: gsuper (数理统计-九阳真经) 看板: Statistics
标题: [问题] 卡方检定的交互作用
时间: Sun Nov 6 00:51:51 2011
### R code
x <- matrix(c(10,4,7,3,12,1,5,2,20),3,3)
print(x)
AA AG GG (SNP1)
----------------
TT |
10 3 5 |
| |
TC | 4
12 2 |
| |
CC | 7 1
20 |
----------------
(SNP2)
################################################
在以上的 table 中
可以很明显的看到
AA 时常伴随 TT
AG 伴随 TC
GG 伴随 CC
因此两个 SNPs 的基因型之间
似乎有某种关联性 (高相关性)
#####################################################
首先基本的是
卡方检定 or 费雪检定
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 32.7978, df = 4,
p-value = 1.314e-06
******************************
> fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 1.734e-06
alternative hypothesis: two.sided
#################################################
另一种资料格式
y <- rbind(cbind(rep("TT",18), c(rep("AA",10),rep("AG",3) ,rep("GG",5 ))) ,
cbind(rep("TC",18), c(rep("AA",4) ,rep("AG",12),rep("GG",2 ))) ,
cbind(rep("CC",28), c(rep("AA",7) ,rep("AG",1) ,rep("GG",20))) )
可以往以下方向发展
1. ANOVA
2. Logistic regression
3. simple correlation
##################################################
但九宫格内暗藏陷阱
SNP1 , AG type
AA AG GG A allele : 45.3%
------------------------------ G allele : 54.7% (major allele)
|全 = 10 |全 = 3 |全 = 5 |
| | | | AA genotype : 45.3%
TT |AT = 10 |AT = 3 |GT = 5 | AG genotype : 25.0%
|AT = 10 |GT = 3 |GT = 5 | GG genotype : 42.2%
| | | |
-----------------------------|
|全 = 4 |全 = 12 |全 = 2 |
| |
AT = a | |
TC |AT = 4 |
AC = b |GT = 2 |
|AC = 4 |
GT = 12-a |GC = 2 |
| |
GC = 12-b | |
-----------------------------|
|全 = 7 |全 = 1 |全 = 20 |
| | | |
CC |AC = 7 |AC = 1 |GC = 20 |
|AC = 7 |GC = 1 |GC = 20 |
| | | |
------------------------------
SNP2 , TC type
T allele : 42.2%
C allele : 57.8% (major allele)
TT genotype : 28.1%
TC genotype : 28.1%
CC genotype : 43.8%
#############################################
从以上的 table 可以得知
当两个 SNPs 的异型合子比例越大
a 与 b 的影响越大
上述的计算方法会失准
而且当两者的异合子比例同时都很大时
统计结果会导致完全的 misleading!
#############################################
计算9格的 Haplotye 频率分布
#(九格)
----------------
Hap1(AT) | 27 + a |
Hap2(GT) | 15 + (12-a) |
Hap3(AC) | 19 + b |
Hap4(GC) | 43 + (12-b) |
----------------
若忽略中间 cells , 计算8格的 Haplotye 频率分布
#(只算8格) %
----------------------
Hap1(AT) | 27 | 30.0 |
Hap2(GT) | 15 | 14.4 |
Hap3(AC) | 19 | 18.3 |
Hap4(GC) | 43 | 41.3 |
----------------------
##################################################
问题:
是否存在某种最大概似机率
可以用上述的各种频率资料
估计 a 和 b 的最可能个数 ?
因为标准的 r^2 或 D'
都需要计算一个 D
D = Obs_freq( Hap4[GC] ) - Exp_freq( Hap4[GC] )
而 Hap4[GC] 的数量
又必须要有 a 或 b 值才能计算
--
祭颂后灵的骑士道与白主教稳守黄金乡
边境兵躁动自高自大妄入堡垒
黑主教冷静人格分裂
笼城王与双子战塔一筹莫展
掌握无限的魔女唤醒躺下的灵魂
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.239.247
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:53)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:58)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:59)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:01)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:13)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:26)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:27)
1F:→ clickhere:EM algorithm 11/06 03:57
2F:→ clickhere:但需要 linkage equilibrum 假设独立, 或是你有至少 3代 11/06 03:59
3F:→ clickhere:家族资讯. 要不然 a, b 可能有很多种解. 11/06 04:00
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: gsuper (140.113.239.247), 时间: 11/06/2011 19:42:34