作者thomson (四年可以畢業嗎)
看板Statistics
標題Re: [統計] 相關係數的問題
時間Sun Oct 23 13:05:38 2005
根據yhliu版友的建議 我嘗試了下面三種方式來定義"取樣方式的好壞"
假設母體是以某種f分佈所產生的數值,可用 random generator 產生一組例子為:
1.5, 3.5, 4.5, 5.5, 5.7, 6.5, 6.8, 7.3, 7.9, 9.1 (共10組)
現在假設有某種取樣方法A:取得的樣本為: 1.5, 5.7, 6.8, 7.3, 9.1 (共五組)
則下面我使用三種方式來定義"取樣方式A的好壞"
(1) 卡方檢定
2 n(q_i-p_i)^2
X = Σ --------------- 其中q_i, p_i 表示取樣或母體落在[i,1+1]的次數
p_i
2
X = n { [(0-1)^2/(1)] + [(0-1)^2/(1)] + [(1-1)^2/(1)] + [(1-2)^2/(2)] +
[(1-2)^2/(2)] + [(1-2)^2/(2)] + [(1-1)^2/(1)] }
缺點:
1. 沒有辦法定義出一個適合的區間, 也就是沒辦法說明為何要定義區間為[i,1+1]
2. X^2 不是 介於 0~1的數值, 沒有一個絕對的上下界
(2) dissimillarity index = Σ|q_i - p_i|/2
其中q_i, p_i 表示取樣或母體落在[i,1+1]的機率
index = |0-1/10|/2 + |0-1/10|/2 + |1/5-1/10|/2 + |1/5-2/10|/2 +
|1/5-2/10|/2 + |1/5-2/10|/2 + |1/5-1/10|/2
where 0 <= index <= 1
缺點:
1. 根據定義,dissimillarity index是比較兩筆相同數量的data之間的相異性,
所以此處,母體數量=10, 取樣數量=5,實在是不合適用此index
(3) K-S 檢定
D = sup|ai-bi|*n^(1/2)
其中 ai是 樣本的 empircial distribution function
bi是 母體的 cdf
n 是 取樣的數目
sup { |0/5-0/10|, |0/5-0/10|, |0/5-0/10|, |0/5-2/10|, |1/5-3/10|,
|2/5-5/10|, |3/5-7/10|, |4/5-9/10|, |4/5-9/10|, |5/5-10/10| }
= 1/5
D = (1/5) * \sqrt(5) = 0.4472
查表可以得知 右尾機率 = 0.98 = Prob(取樣的分佈是f|H0 is true)
(H0:母體跟取樣的分佈相似)
藉由此機率,可以定義出"取樣方式A的好壞" 且此值P 有特性 0 <= P <= 1
以上,是我最近這幾天翻了一些書所得到的結果,所以應該只有KS可以符合我的需求
但是 "取樣方式A的好壞" 應該是用 Prob(取樣的近似是f) 來表達比較合理
因此 我必須 另外計算 P(取樣的分佈是f|H0 is false) 的情況.
但是,我該如何計算 Prob(取樣的分佈是f|H0 is false) 的情況呢?
--
E=MC^2
E:Empathy E:Economic E: ??
M:Mind M:Multitude M:Multimedia
C:Courtesy C:Communication C: ??
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.236.43
※ 編輯: thomson 來自: 140.113.236.43 (10/23 13:56)