作者thomson (四年可以毕业吗)
看板Statistics
标题Re: [统计] 相关系数的问题
时间Sun Oct 23 13:05:38 2005
根据yhliu版友的建议 我尝试了下面三种方式来定义"取样方式的好坏"
假设母体是以某种f分布所产生的数值,可用 random generator 产生一组例子为:
1.5, 3.5, 4.5, 5.5, 5.7, 6.5, 6.8, 7.3, 7.9, 9.1 (共10组)
现在假设有某种取样方法A:取得的样本为: 1.5, 5.7, 6.8, 7.3, 9.1 (共五组)
则下面我使用三种方式来定义"取样方式A的好坏"
(1) 卡方检定
2 n(q_i-p_i)^2
X = Σ --------------- 其中q_i, p_i 表示取样或母体落在[i,1+1]的次数
p_i
2
X = n { [(0-1)^2/(1)] + [(0-1)^2/(1)] + [(1-1)^2/(1)] + [(1-2)^2/(2)] +
[(1-2)^2/(2)] + [(1-2)^2/(2)] + [(1-1)^2/(1)] }
缺点:
1. 没有办法定义出一个适合的区间, 也就是没办法说明为何要定义区间为[i,1+1]
2. X^2 不是 介於 0~1的数值, 没有一个绝对的上下界
(2) dissimillarity index = Σ|q_i - p_i|/2
其中q_i, p_i 表示取样或母体落在[i,1+1]的机率
index = |0-1/10|/2 + |0-1/10|/2 + |1/5-1/10|/2 + |1/5-2/10|/2 +
|1/5-2/10|/2 + |1/5-2/10|/2 + |1/5-1/10|/2
where 0 <= index <= 1
缺点:
1. 根据定义,dissimillarity index是比较两笔相同数量的data之间的相异性,
所以此处,母体数量=10, 取样数量=5,实在是不合适用此index
(3) K-S 检定
D = sup|ai-bi|*n^(1/2)
其中 ai是 样本的 empircial distribution function
bi是 母体的 cdf
n 是 取样的数目
sup { |0/5-0/10|, |0/5-0/10|, |0/5-0/10|, |0/5-2/10|, |1/5-3/10|,
|2/5-5/10|, |3/5-7/10|, |4/5-9/10|, |4/5-9/10|, |5/5-10/10| }
= 1/5
D = (1/5) * \sqrt(5) = 0.4472
查表可以得知 右尾机率 = 0.98 = Prob(取样的分布是f|H0 is true)
(H0:母体跟取样的分布相似)
藉由此机率,可以定义出"取样方式A的好坏" 且此值P 有特性 0 <= P <= 1
以上,是我最近这几天翻了一些书所得到的结果,所以应该只有KS可以符合我的需求
但是 "取样方式A的好坏" 应该是用 Prob(取样的近似是f) 来表达比较合理
因此 我必须 另外计算 P(取样的分布是f|H0 is false) 的情况.
但是,我该如何计算 Prob(取样的分布是f|H0 is false) 的情况呢?
--
E=MC^2
E:Empathy E:Economic E: ??
M:Mind M:Multitude M:Multimedia
C:Courtesy C:Communication C: ??
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.236.43
※ 编辑: thomson 来自: 140.113.236.43 (10/23 13:56)