看板Statistics
标 题Re: [问题]一个关於资料判读的问题
发信站无名小站 (Fri Jun 16 17:50:41 2006)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!wretch
※ 引述《[email protected] (阿宗)》之铭言:
> 这个不是课本上的习题
> 我目前在读统计想了解一下实验资料的可信度
> 我有一个问题关於实验结果的认定
> 假定一个森林经过长时间的调查发现某一种树木遭寄生虫感染的比例为0.4
> 而今年某研究团队经过10次采样 每次采样20棵 发现感染的树木数如下:
> 12,8,10,13,14,16,12,9,12,10(样本平均数为11.6,样本标准差为2.41)
> 第一个我想了解的是以上这10笔资料有没有不太对的?
> 假设新的感染率p = 11.6/20 = 0.58 ~ 0.6,查二项式分布的表可发现
> P[X = 9] = 0.071 > 0.05 P[X = 15] = 0.075 > 0.05
> 因此 我推论 本次的资料在9 ~ 15间是没问题的,根据这样,我把上述的10笔资料
(1) 假设群体比例 p=0.6 计算出 P[X≦9] 或 P[X≧15]
都比预定界限 (如 0.05) 高, 表示 X=9 或 X=15 都
是合理观测值. 因此, 没有理由剔除!
(2) 由於其实并不知群体比例,因此 "p=0.6" 只是一个假
设. 要据以评估资料是否异常, 仍有些问题.
> 其中的8和16删掉,因此新的样本平均数为11.5,样本标准差为1.69
> 第二个我想了解的是,是不是我取样的这八笔资料的平均值为11.5,
> 是否代表了新的感染率就为 11.5/20 = 0.575
> 因此我以 p = 0.6 P[u-2Std < X < u + 2Std] = P [8 < X < 15] = 0.892 < 0.95
> 所以我认定今年的采样数据并没有支持此种树遭寄生虫的感染率有升高的趋势
> 请问我以上的流程有没有问题?
有问题!
假使资料有异常值 (outlier), 也不是剔除了事. 最起码
必须了解异常原因, 了解取样方式. 如果取样不随机, 所
有分析可能无任何参考价值!
> 因为我的统计才刚看 并没有很熟
> 有错的请大家多多指正
分析资料有无异常:
Obs.Fr. Exp.Fr. X^2 Pearson Res. z
12 11.6 0.013793103 0.117444044 1.597524126
8 11.6 1.117241379 -1.056996395 -0.228217732
10 11.6 0.220689655 -0.469776176 0.684653197
13 11.6 0.168965517 0.411054154 2.053959591
14 11.6 0.496551724 0.704664263 2.510395055
16 11.6 1.668965517 1.291884483 3.423265984
12 11.6 0.013793103 0.117444044 1.597524126
9 11.6 0.582758621 -0.763386285 0.228217732
12 11.6 0.013793103 0.117444044 1.597524126
10 11.6 0.220689655 -0.469776176 0.684653197
5.196152423
0.58 X^2 = 4.517241379
df = 9
(1) 分析各子样本对应群体比例是否相等
H0: p_1 = p_2 = ... = p_{10}
Ha: 有些比例不一致
结论: X^2 = 4.52, df=9, 无证据可说各次取样结果
所代表的群体比例有差异.
(2) 残差分析
Pearson 残差(绝对值)最大仅 1.29. 虽然 Pearson
residuals 本有偏低之嫌(Var(Res)<1), 但以所见结
果观之, 仍可认为并无异常.
分析感染率是否提高: H0: p≦0.4 Ha: p>0.4
(1) 10次结果个别 z 值有些超过0.05水准临界点 1.645;
有些未超过. 但未 reject H0 并不表示 H0 是对的,
实际上 n=20 过小. 若做常态近似信赖区间, 以样本
比例 0.4 (10次中最小的) 而言, margin of error
为 z*√[(0.4)(0.6)/20] = z*(0.1095), 90%水准信
赖区间之 margin of error 就达 0.18, 即 18 个百
分点 (区间 [0.22,0.58]).
而10次结果在 0.05 水准下有 3 个显着, 比期望数,
0.05*10 = 0.5 次, 大得多!
(2) 汇总 10 次结果之 z 值为 5.20, P-value 接近 0.
因此, 若10次调查的取样都符合随机性, 且相互独立,
我们有充分证据说: 感染比例提高了. 提高至多少?
信赖区间(99%水准)是
0.58 ±2.576*√[(0.58)(0.42)/200]
= 0.58 ±2.576*0.03490 = 0.58 ±0.0899
= [0.49,0.67]
有百分之99的信心说至少提高9个百分点(0.49-0.4).
(3) 10次调查剔除刚好是 0.4=8/20 的那次以外, 9 次都
比 test value 0.4 来得高, 这显示绝非偶然. 若不
是取样问题, 就是感染率确实提高.
--
H E L P !!! 统 计 专 业 版 需 要 你 !!! 来 贴 文 吧 !!!
无名小站 telnet://wretch.twbbs.org Statistics (统计方法讨论区)
成大计中站 telnet://bbs.ncku.edu.tw Statistics (统计方法及学理讨论区)
盈月与繁星 telnet://ms.twbbs.org Statistics (统计:让数字说话)
交大资讯次世代 telnet://bs2.twbbs.org Statistics (统计与机率)
★本文未经本人同意请勿转载; 回覆请勿全文引用, 请仅留下直接涉及部分。
--
夫兵者不祥之器物或恶之故有道者不处君子居则贵左用兵则贵右兵者不祥之器非君子
之器不得已而用之恬淡为上胜而不美而美之者是乐杀人夫乐杀人者则不可得志於天下
矣吉事尚左凶事尚右偏将军居左上将军居右言以丧礼处之杀人之众以哀悲泣之战胜以
丧礼处之道常无名朴虽小天下莫能臣侯王若能守之万物将自宾天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦将知止知止可以不殆譬道之在天 163.15.188.87海