作者iphone2003 (307)
看板Statistics
標題[問題] 缺少資料時的likelihood function
時間Wed Aug 26 18:33:21 2020
如果是跟統計軟體有關請重發文章,使用程式做為分類。
統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類
請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。
為避免版面混亂,請勿手動置底問題,善用E做檔案編輯
這是看hogg數統(第7版),EM演算法那一節時遇到的問題
https://i.imgur.com/hbha8dA.jpg
https://i.imgur.com/HOYVtOR.jpg
圖中的6.6.1式我看了很久都不知道是怎麼來的
我的理解是X和Z都有相同的pdf
所以6.6.2才會寫成這個樣子
但是不知道為什麼6.6.1中,前面還會多乘 [1-F(a-theta)]^n2
另外一個問題是
如果「X和Z都有相同的pdf」這個理解沒錯
那為什麼在第二張圖中,還會從6.6.13來得出Z的pdf?
那如果Z的pdf確實和X不同,而是像第二張圖寫的:f(z-theta) / [1-F(a-theta)]
那為什麼6.6.2的likelihood又會寫成這樣?
我覺得我好像連第一段描述的內容都沒有很完全理解
所以對於後面這些式子才會都搞不太清楚彼此的關係
麻煩大家解惑了
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.67.176 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1598438003.A.27E.html
※ 編輯: iphone2003 (140.112.67.176 臺灣), 08/26/2020 18:34:07
1F:→ Pieteacher: censor08/26 21:26
2F:→ hsnuyi: 你知道有n2個z 他們都大於a 但不知確切數值08/26 22:32
3F:→ yhliu: (11)式是 conditional likelihood, 也就是 n2 個 censored08/28 08:13
4F:→ yhliu: data 的機率乘上 n1 個 observations 的聯合 p.d.f.,08/28 08:15
5F:→ yhliu: (12) 式是假設的 complete likelihood, 也就是如果 n1+n208/28 08:16
6F:→ yhliu: observations 都能觀測到, 其聯合 p.d.f.08/28 08:17
7F:→ yhliu: EM-algorithm 是利用已觀測到的(n1個 x's 及 n2個censored)08/28 08:20
8F:→ yhliu: 以 "平均法" 插補未觀測到的 z's. 再把這些插補資料代入08/28 08:22
9F:→ yhliu: complete likelihood. 而文中是直接求 complete likelihood08/28 08:24
10F:→ yhliu: 之對數的期望值, 整合前述兩步驟, 這就是 E-step.08/28 08:25
11F:→ yhliu: 所以 Q 就是以插補的 z's 代入的 complete likelihood, 08/28 08:27
12F:→ yhliu: 所以 M-step (maximum likelihood) 就是極大化 Q 的值.08/28 08:28
感謝大家的回覆,不過我還是沒有很懂
首先是關於censored data
其實這是我第一次看到這個詞,查了一下之後的理解感覺是「有觀測但是不知道正確的值
為何」
而這些censored data (Z) 跟X是獨立的
那我不太懂的地方是,11式的L(theta|x)為什麼會是conditional likelihood?
L(theta|x)看起來跟Z沒有關聯,為何會需要考慮Z的機率?
另外一個問題是
如果我前面對censored data的理解無誤,那Z本質上應該是跟X有一樣的pdf吧(?
那麼第二張圖片的前兩行,文中提到的
「Z1,....Zn2 are iid with the common pdf f(z-theta)/[1-F(a-theta)] 」
感覺就有點奇怪?
※ 編輯: iphone2003 (114.136.10.238 臺灣), 08/29/2020 03:53:15
13F:→ yhliu: 把(11)稱 conditional likelihood 是我的錯. 08/30 18:11
14F:→ yhliu: 由於 n2 個 z's 只知道 z_i > a, 因此只能由 P[Z_i>a;θ] 08/30 18:14
15F:→ yhliu: 獲得 θ 的訊息. 所以由 observed data 給的 information 08/30 18:16
16F:→ yhliu: 用 (11) 戌表示. 而如果不是 censored at a, 所有 z's 也被 08/30 18:17
17F:→ yhliu: 完全觀測到, 這假想的, 完整的 likelihood 就是 (12) 式. 08/30 18:19
18F:→ yhliu: 雖然 n2 個 z's 未被完整觀測到, 但卻知道它們大於 a, 這當08/30 18:21
19F:→ yhliu: 然也攜帶了 θ 的 information, 因此不能直接把它們丟棄不08/30 18:23
20F:→ yhliu: 用. 所以, 或者用 (11) 式進行統計推論, 或者如文中以 (12)08/30 18:25
21F:→ yhliu: 戌為基礎進行 EM algorithm 對 θ 做估計.08/30 18:26
22F:→ yhliu: Unconditionally, z_i's 和 x_j's 是 i.i.d., conditional 08/30 18:29
23F:→ yhliu: on z_i>a,則 z_1,...,z_n2 是i.i.d. f(z_i-θ)/[1-F(a-θ)]08/30 18:31
24F:→ yhliu: (13) 式就是 given observed data 時 z's 的聯合條件p.d.f.08/30 18:34
25F:→ yhliu: 而由(13)式知此條件p.d.f.與諸 x's 無關, 只和 a 有關.08/30 18:36
26F:→ yhliu: 而且(13)式明白顯示了 z_i's 在共同 censoring time a 之下 08/30 18:38
27F:→ yhliu: 是 i.i.d. 的.08/30 18:38
了解了,這個說明有看比較懂了
非常感謝!
※ 編輯: iphone2003 (36.226.12.16 臺灣), 09/01/2020 02:38:02