作者gsuper (数理统计-九阳真经)
看板Statistics
标题[问题] 卡方检定的交互作用
时间Sun Nov 6 00:51:51 2011
### R code
x <- matrix(c(10,4,7,3,12,1,5,2,20),3,3)
print(x)
AA AG GG (SNP1)
----------------
TT |
10 3 5 |
| |
TC | 4
12 2 |
| |
CC | 7 1
20 |
----------------
(SNP2)
################################################
在以上的 table 中
可以很明显的看到
AA 时常伴随 TT
AG 伴随 TC
GG 伴随 CC
因此两个 SNPs 的基因型之间
似乎有某种关联性 (高相关性)
#####################################################
首先基本的是
卡方检定 or 费雪检定
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 32.7978, df = 4,
p-value = 1.314e-06
******************************
> fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 1.734e-06
alternative hypothesis: two.sided
#################################################
另一种资料格式
y <- rbind(cbind(rep("TT",18), c(rep("AA",10),rep("AG",3) ,rep("GG",5 ))) ,
cbind(rep("TC",18), c(rep("AA",4) ,rep("AG",12),rep("GG",2 ))) ,
cbind(rep("CC",28), c(rep("AA",7) ,rep("AG",1) ,rep("GG",20))) )
可以往以下方向发展
1. ANOVA
2. Logistic regression
3. simple correlation
##################################################
但九宫格内暗藏陷阱
SNP1 , AG type
AA AG GG A allele : 45.3%
------------------------------ G allele : 54.7% (major allele)
|全 = 10 |全 = 3 |全 = 5 |
| | | | AA genotype : 45.3%
TT |AT = 10 |AT = 3 |GT = 5 | AG genotype : 25.0%
|AT = 10 |GT = 3 |GT = 5 | GG genotype : 42.2%
| | | |
-----------------------------|
|全 = 4 |全 = 12 |全 = 2 |
| |
AT = a | |
TC |AT = 4 |
AC = b |GT = 2 |
|AC = 4 |
GT = 12-a |GC = 2 |
| |
GC = 12-b | |
-----------------------------|
|全 = 7 |全 = 1 |全 = 20 |
| | | |
CC |AC = 7 |AC = 1 |GC = 20 |
|AC = 7 |GC = 1 |GC = 20 |
| | | |
------------------------------
SNP2 , TC type
T allele : 42.2%
C allele : 57.8% (major allele)
TT genotype : 28.1%
TC genotype : 28.1%
CC genotype : 43.8%
#############################################
从以上的 table 可以得知
当两个 SNPs 的异型合子比例越大
a 与 b 的影响越大
上述的计算方法会失准
而且当两者的异合子比例同时都很大时
统计结果会导致完全的 misleading!
#############################################
计算9格的 Haplotye 频率分布
#(九格)
----------------
Hap1(AT) | 27 + a |
Hap2(GT) | 15 + (12-a) |
Hap3(AC) | 19 + b |
Hap4(GC) | 43 + (12-b) |
----------------
若忽略中间 cells , 计算8格的 Haplotye 频率分布
#(只算8格) %
----------------------
Hap1(AT) | 27 | 30.0 |
Hap2(GT) | 15 | 14.4 |
Hap3(AC) | 19 | 18.3 |
Hap4(GC) | 43 | 41.3 |
----------------------
##################################################
问题:
是否存在某种最大概似机率
可以用上述的各种频率资料
估计 a 和 b 的最可能个数 ?
因为标准的 r^2 或 D'
都需要计算一个 D
D = Obs_freq( Hap4[GC] ) - Exp_freq( Hap4[GC] )
而 Hap4[GC] 的数量
又必须要有 a 或 b 值才能计算
--
祭颂后灵的骑士道与白主教稳守黄金乡
边境兵躁动自高自大妄入堡垒
黑主教冷静人格分裂
笼城王与双子战塔一筹莫展
掌握无限的魔女唤醒躺下的灵魂
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.239.247
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:53)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:58)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:59)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:01)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:13)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:26)
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:27)
1F:→ clickhere:EM algorithm 11/06 03:57
2F:→ clickhere:但需要 linkage equilibrum 假设独立, 或是你有至少 3代 11/06 03:59
3F:→ clickhere:家族资讯. 要不然 a, b 可能有很多种解. 11/06 04:00
※ gsuper:转录至看板 BioMedInfo 11/06 19:42
连锁不平衡假设独立是针对甚麽部分?
※ 编辑: gsuper 来自: 140.113.239.247 (11/06 20:11)
4F:→ clickhere:H0: LE ? 给定H0,假设独立,求得期望的Haplotype发生频率 11/06 22:25
5F:→ clickhere:D为观察到的与期望的差距. 可行乎? 11/06 22:26
6F:→ clickhere:www.genetics.org/content/166/1/505.full 也许有帮助 11/06 22:27
D 的计算需要 a & b
我先把 paper 读完看看
看起来满难读的 0rz
############################################
我发现这篇被我 skip 掉了
因为他的主轴是把 composite LD based method
延伸成 alleles > 2 以上都能使用的方法
我再找其他 paper 来看好了
因为我的重点不是 testing
是做资料模拟的时候要为持住 SNP 间的共线性
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:18)
7F:→ clickhere:SNP间的相关性? 11/07 00:20
8F:→ clickhere:一般不会用统计模型去模拟SNP的 LE or LD. 11/07 00:21
我的模拟资料长这样
SNP1 SNP2 SNP3 SNP4 .......
----------------------------------------
Pseudo1 | AA CC AT
Pseudo2 | AG CC AT
Pseudo3 | AA CT AT
. |
. |
. |
. |
每个 columns 是从不同 paper 上蒐集来的独立样本
所以最大的问题就是每个 columns 间的共线性不见了
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:23)
9F:→ clickhere:可以考虑演化模型... 11/07 00:22
10F:→ clickhere:找到其他 paper 通知一下. 我也想看 11/07 00:23
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:25)
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:25)
11F:→ clickhere:除非你有3代的资料,要不然是拿不到haplotype的. 11/07 00:26
12F:→ clickhere:next generation sequence 也许有办法. 旧的方法就只能 11/07 00:27
13F:→ clickhere:知道genotype呀. 11/07 00:27
14F:→ clickhere:但你要模拟就是另一回事了, 可以生成一整条的, 再去做 11/07 00:28
15F:→ clickhere:mutation + crossover 11/07 00:28
原来还可以这样....
就怕计算量会爆表
我先研究研究看看好了
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:31)
信我收到了
感谢您
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:33)
For genotype data, AB/ab cannot be distinguished from aB/Ab.
Consequently, we estimate pAB using maximum likelihood
and use this value in the computations.
这是一个 R 的 package 提到的
果然是用 MLE 去估计
接下来就再去找估计方法了
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 22:28)