Statistics 板


LINE

### R code x <- matrix(c(10,4,7,3,12,1,5,2,20),3,3) print(x)     AA AG GG (SNP1) ---------------- TT | 10 3 5 | | | TC | 4 12 2 | | | CC | 7 1 20 | ---------------- (SNP2) ################################################ 在以上的 table 中 可以很明显的看到 AA 时常伴随 TT AG   伴随 TC GG 伴随 CC 因此两个 SNPs 的基因型之间 似乎有某种关联性 (高相关性) ##################################################### 首先基本的是 卡方检定 or 费雪检定 > chisq.test(x) Pearson's Chi-squared test data: x X-squared = 32.7978, df = 4, p-value = 1.314e-06 ****************************** > fisher.test(x) Fisher's Exact Test for Count Data data: x p-value = 1.734e-06 alternative hypothesis: two.sided ################################################# 另一种资料格式 y <- rbind(cbind(rep("TT",18), c(rep("AA",10),rep("AG",3) ,rep("GG",5 ))) , cbind(rep("TC",18), c(rep("AA",4) ,rep("AG",12),rep("GG",2 ))) , cbind(rep("CC",28), c(rep("AA",7) ,rep("AG",1) ,rep("GG",20))) ) 可以往以下方向发展 1. ANOVA 2. Logistic regression 3. simple correlation ################################################## 但九宫格内暗藏陷阱 SNP1 , AG type     AA AG GG A allele : 45.3% ------------------------------ G allele : 54.7% (major allele) |全 = 10 |全 = 3 |全 = 5 | | | | | AA genotype : 45.3% TT |AT = 10 |AT = 3 |GT = 5 | AG genotype : 25.0% |AT = 10 |GT = 3 |GT = 5 | GG genotype : 42.2% | | | | -----------------------------| |全 = 4 |全 = 12 |全 = 2 | | |AT = a | | TC |AT = 4 |AC = b |GT = 2 | |AC = 4 |GT = 12-a |GC = 2 | | |GC = 12-b | | -----------------------------| |全 = 7 |全 = 1 |全 = 20 | | | | | CC |AC = 7 |AC = 1 |GC = 20 | |AC = 7 |GC = 1 |GC = 20 | | | | | ------------------------------ SNP2 , TC type T allele : 42.2% C allele : 57.8% (major allele) TT genotype : 28.1% TC genotype : 28.1% CC genotype : 43.8% ############################################# 从以上的 table 可以得知 当两个 SNPs 的异型合子比例越大 a 与 b 的影响越大 上述的计算方法会失准 而且当两者的异合子比例同时都很大时 统计结果会导致完全的 misleading! ############################################# 计算9格的 Haplotye 频率分布 #(九格) ---------------- Hap1(AT) | 27 + a | Hap2(GT) | 15 + (12-a) | Hap3(AC) | 19 + b | Hap4(GC) | 43 + (12-b) | ---------------- 若忽略中间 cells , 计算8格的 Haplotye 频率分布 #(只算8格) % ---------------------- Hap1(AT) | 27 | 30.0 | Hap2(GT) | 15  | 14.4 | Hap3(AC) | 19 | 18.3 | Hap4(GC) | 43 | 41.3 | ---------------------- ################################################## 问题: 是否存在某种最大概似机率 可以用上述的各种频率资料 估计 a 和 b 的最可能个数 ? 因为标准的 r^2 或 D' 都需要计算一个 D D = Obs_freq( Hap4[GC] ) - Exp_freq( Hap4[GC] ) 而 Hap4[GC] 的数量 又必须要有 a 或 b 值才能计算 -- 祭颂后灵的骑士道与白主教稳守黄金乡 边境兵躁动自高自大妄入堡垒 黑主教冷静人格分裂 笼城王与双子战塔一筹莫展 掌握无限的魔女唤醒躺下的灵魂 --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.239.247 ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:53) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:58) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 00:59) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:01) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:13) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:26) ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 01:27)
1F:→ clickhere:EM algorithm 11/06 03:57
2F:→ clickhere:但需要 linkage equilibrum 假设独立, 或是你有至少 3代 11/06 03:59
3F:→ clickhere:家族资讯. 要不然 a, b 可能有很多种解. 11/06 04:00
gsuper:转录至看板 BioMedInfo 11/06 19:42 连锁不平衡假设独立是针对甚麽部分? ※ 编辑: gsuper 来自: 140.113.239.247 (11/06 20:11)
4F:→ clickhere:H0: LE ? 给定H0,假设独立,求得期望的Haplotype发生频率 11/06 22:25
5F:→ clickhere:D为观察到的与期望的差距. 可行乎? 11/06 22:26
6F:→ clickhere:www.genetics.org/content/166/1/505.full 也许有帮助 11/06 22:27
D 的计算需要 a & b 我先把 paper 读完看看 看起来满难读的 0rz ############################################ 我发现这篇被我 skip 掉了 因为他的主轴是把 composite LD based method 延伸成 alleles > 2 以上都能使用的方法 我再找其他 paper 来看好了 因为我的重点不是 testing 是做资料模拟的时候要为持住 SNP 间的共线性 ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:18)
7F:→ clickhere:SNP间的相关性? 11/07 00:20
8F:→ clickhere:一般不会用统计模型去模拟SNP的 LE or LD. 11/07 00:21
我的模拟资料长这样 SNP1 SNP2 SNP3 SNP4 ....... ---------------------------------------- Pseudo1 | AA CC AT Pseudo2 | AG CC AT Pseudo3 | AA CT AT . | . | . | . | 每个 columns 是从不同 paper 上蒐集来的独立样本 所以最大的问题就是每个 columns 间的共线性不见了 ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:23)
9F:→ clickhere:可以考虑演化模型... 11/07 00:22
10F:→ clickhere:找到其他 paper 通知一下. 我也想看 11/07 00:23
※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:25) ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:25)
11F:→ clickhere:除非你有3代的资料,要不然是拿不到haplotype的. 11/07 00:26
12F:→ clickhere:next generation sequence 也许有办法. 旧的方法就只能 11/07 00:27
13F:→ clickhere:知道genotype呀. 11/07 00:27
14F:→ clickhere:但你要模拟就是另一回事了, 可以生成一整条的, 再去做 11/07 00:28
15F:→ clickhere:mutation + crossover 11/07 00:28
原来还可以这样.... 就怕计算量会爆表 我先研究研究看看好了 ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:31) 信我收到了 感谢您 ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 00:33) For genotype data, AB/ab cannot be distinguished from aB/Ab. Consequently, we estimate pAB using maximum likelihood and use this value in the computations. 这是一个 R 的 package 提到的 果然是用 MLE 去估计 接下来就再去找估计方法了 ※ 编辑: gsuper 来自: 140.113.239.247 (11/07 22:28)







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP