作者gsuper (數理統計-九陽真經)
看板Statistics
標題[問題] 卡方檢定的交互作用
時間Sun Nov 6 00:51:51 2011
### R code
x <- matrix(c(10,4,7,3,12,1,5,2,20),3,3)
print(x)
AA AG GG (SNP1)
----------------
TT |
10 3 5 |
| |
TC | 4
12 2 |
| |
CC | 7 1
20 |
----------------
(SNP2)
################################################
在以上的 table 中
可以很明顯的看到
AA 時常伴隨 TT
AG 伴隨 TC
GG 伴隨 CC
因此兩個 SNPs 的基因型之間
似乎有某種關聯性 (高相關性)
#####################################################
首先基本的是
卡方檢定 or 費雪檢定
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 32.7978, df = 4,
p-value = 1.314e-06
******************************
> fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 1.734e-06
alternative hypothesis: two.sided
#################################################
另一種資料格式
y <- rbind(cbind(rep("TT",18), c(rep("AA",10),rep("AG",3) ,rep("GG",5 ))) ,
cbind(rep("TC",18), c(rep("AA",4) ,rep("AG",12),rep("GG",2 ))) ,
cbind(rep("CC",28), c(rep("AA",7) ,rep("AG",1) ,rep("GG",20))) )
可以往以下方向發展
1. ANOVA
2. Logistic regression
3. simple correlation
##################################################
但九宮格內暗藏陷阱
SNP1 , AG type
AA AG GG A allele : 45.3%
------------------------------ G allele : 54.7% (major allele)
|全 = 10 |全 = 3 |全 = 5 |
| | | | AA genotype : 45.3%
TT |AT = 10 |AT = 3 |GT = 5 | AG genotype : 25.0%
|AT = 10 |GT = 3 |GT = 5 | GG genotype : 42.2%
| | | |
-----------------------------|
|全 = 4 |全 = 12 |全 = 2 |
| |
AT = a | |
TC |AT = 4 |
AC = b |GT = 2 |
|AC = 4 |
GT = 12-a |GC = 2 |
| |
GC = 12-b | |
-----------------------------|
|全 = 7 |全 = 1 |全 = 20 |
| | | |
CC |AC = 7 |AC = 1 |GC = 20 |
|AC = 7 |GC = 1 |GC = 20 |
| | | |
------------------------------
SNP2 , TC type
T allele : 42.2%
C allele : 57.8% (major allele)
TT genotype : 28.1%
TC genotype : 28.1%
CC genotype : 43.8%
#############################################
從以上的 table 可以得知
當兩個 SNPs 的異型合子比例越大
a 與 b 的影響越大
上述的計算方法會失準
而且當兩者的異合子比例同時都很大時
統計結果會導致完全的 misleading!
#############################################
計算9格的 Haplotye 頻率分佈
#(九格)
----------------
Hap1(AT) | 27 + a |
Hap2(GT) | 15 + (12-a) |
Hap3(AC) | 19 + b |
Hap4(GC) | 43 + (12-b) |
----------------
若忽略中間 cells , 計算8格的 Haplotye 頻率分佈
#(只算8格) %
----------------------
Hap1(AT) | 27 | 30.0 |
Hap2(GT) | 15 | 14.4 |
Hap3(AC) | 19 | 18.3 |
Hap4(GC) | 43 | 41.3 |
----------------------
##################################################
問題:
是否存在某種最大概似機率
可以用上述的各種頻率資料
估計 a 和 b 的最可能個數 ?
因為標準的 r^2 或 D'
都需要計算一個 D
D = Obs_freq( Hap4[GC] ) - Exp_freq( Hap4[GC] )
而 Hap4[GC] 的數量
又必須要有 a 或 b 值才能計算
--
祭頌后靈的騎士道與白主教穩守黃金鄉
邊境兵躁動自高自大妄入堡壘
黑主教冷靜人格分裂
籠城王與雙子戰塔一籌莫展
掌握無限的魔女喚醒躺下的靈魂
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:53)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:58)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 00:59)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:01)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:13)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:26)
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 01:27)
1F:→ clickhere:EM algorithm 11/06 03:57
2F:→ clickhere:但需要 linkage equilibrum 假設獨立, 或是妳有至少 3代 11/06 03:59
3F:→ clickhere:家族資訊. 要不然 a, b 可能有很多種解. 11/06 04:00
※ gsuper:轉錄至看板 BioMedInfo 11/06 19:42
連鎖不平衡假設獨立是針對甚麼部分?
※ 編輯: gsuper 來自: 140.113.239.247 (11/06 20:11)
4F:→ clickhere:H0: LE ? 給定H0,假設獨立,求得期望的Haplotype發生頻率 11/06 22:25
5F:→ clickhere:D為觀察到的與期望的差距. 可行乎? 11/06 22:26
6F:→ clickhere:www.genetics.org/content/166/1/505.full 也許有幫助 11/06 22:27
D 的計算需要 a & b
我先把 paper 讀完看看
看起來滿難讀的 0rz
############################################
我發現這篇被我 skip 掉了
因為他的主軸是把 composite LD based method
延伸成 alleles > 2 以上都能使用的方法
我再找其他 paper 來看好了
因為我的重點不是 testing
是做資料模擬的時候要為持住 SNP 間的共線性
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:18)
7F:→ clickhere:SNP間的相關性? 11/07 00:20
8F:→ clickhere:一般不會用統計模型去模擬SNP的 LE or LD. 11/07 00:21
我的模擬資料長這樣
SNP1 SNP2 SNP3 SNP4 .......
----------------------------------------
Pseudo1 | AA CC AT
Pseudo2 | AG CC AT
Pseudo3 | AA CT AT
. |
. |
. |
. |
每個 columns 是從不同 paper 上蒐集來的獨立樣本
所以最大的問題就是每個 columns 間的共線性不見了
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:23)
9F:→ clickhere:可以考慮演化模型... 11/07 00:22
10F:→ clickhere:找到其他 paper 通知一下. 我也想看 11/07 00:23
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:25)
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:25)
11F:→ clickhere:除非你有3代的資料,要不然是拿不到haplotype的. 11/07 00:26
12F:→ clickhere:next generation sequence 也許有辦法. 舊的方法就只能 11/07 00:27
13F:→ clickhere:知道genotype呀. 11/07 00:27
14F:→ clickhere:但你要模擬就是另一回事了, 可以生成一整條的, 再去做 11/07 00:28
15F:→ clickhere:mutation + crossover 11/07 00:28
原來還可以這樣....
就怕計算量會爆表
我先研究研究看看好了
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:31)
信我收到了
感謝您
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 00:33)
For genotype data, AB/ab cannot be distinguished from aB/Ab.
Consequently, we estimate pAB using maximum likelihood
and use this value in the computations.
這是一個 R 的 package 提到的
果然是用 MLE 去估計
接下來就再去找估計方法了
※ 編輯: gsuper 來自: 140.113.239.247 (11/07 22:28)