作者deniel367 (dann)
看板Statistics
標題[問題] EM演算法,填補缺失值
時間Sun Dec 9 15:53:00 2018
大家好,最近在讀EM(expectation maximization) algorithm,卡關了...QQ 在網路上
搜尋了一番,苦惱了兩天也找不到答案
卡關的部分主要在於,不太懂如何用EM去填補缺失值 (missing values imputation)
先說我對於EM本身的了解程度:
我對於EM的理解來自於這篇文:
https://reurl.cc/Y9NRL
文中提到的算法推導過程我大概可以懂,對於文中提到的EM其中一種使用方法我也可以懂
。(文中提到可以使用EM去把200個人(有男有女)分成兩群,男&女,並且分別估計這兩群
的分佈的參數)
但是我想不通如何用EM去填補缺失值,網上也找不到實例說明。
我的猜想是.. 參考文中提到的notation,我們把x另為observed, 那z就是missing value
s
我們最主要目的是要最大化 L(x,z | θ ),然後透過EM的不斷迭代去不斷估計z,最後收
斂,填補缺失值?
如果我的這個猜想是對的,那麼有兩個問題:
1, 文中的p,也就是機率密度函數,要如何設定。
另外我看到有人用SPSS,
https://reurl.cc/dXkvk,選擇normal!這個也很讓人困惑。
這是代表一個datasets裏頭,所有的variables都分別是normal distribution,然後最大
概似估計的p是所有的normal混在一起嗎?
1, 文中提到的E-step,僅得出z的posterior probability,可以用這個資訊來得到z的估
計值嗎? 如果missing values有5個,那估計出來的是對應到5個中哪一個?
如果我上面兩個問題很不清楚,甚至是根本問錯問題...真的很抱歉。
覺得現在一片混亂..QQ 可能處在一個連問問題都不太知道該怎麼問的狀態
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.125.22
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1544341983.A.94C.html
1F:→ obarisk: 都用em了,為什麼要補值? 12/09 18:16
2F:→ obarisk: 直接進到後面的m啊... 12/09 18:17
3F:→ deniel367: obarisk: 大大不好意思,我不太懂你的意思。我今天的 12/09 19:25
4F:→ deniel367: 主要目的就是要 impute missing values,然後想要用 EM 12/09 19:25
5F:→ deniel367: 的方式,什麼叫做不用補值... 12/09 19:25
6F:→ jayfei2000: 請問你有沒有去臉書的相關社團詢問過? 12/10 03:44
7F:→ deniel367: jayfei2000 : 沒有,好奇怎麼會這樣問 12/10 19:02
8F:推 celestialgod: EM是計算資料有遺失或是未觀察的變數下的likelihood 12/10 20:09
9F:推 celestialgod: ,通常遺失或未觀察的值並不會直接拿來用,它只是過 12/10 20:09
10F:推 celestialgod: 程中的一個參數而已。 12/10 20:09
11F:推 celestialgod: 最常見的例子是GMM,它是假設資料來自多群Gaussian 12/10 20:14
12F:推 celestialgod: 分佈(常態),而我們不知道它mixture的比例,我們 12/10 20:14
13F:推 celestialgod: 透過對沒有觀察到的變數Z,代表各群,進而求得每一 12/10 20:14
14F:推 celestialgod: 群的mean跟variance。當然我們最後可以z當做cluster 12/10 20:14
15F:推 celestialgod: ing的output。 12/10 20:14
16F:→ deniel367: celestialgod: 謝謝回覆。你提到通常遺失或未觀察的 12/10 21:37
17F:→ deniel367: 值並不會直接拿來用,這句話我有疑問。 12/10 21:37
18F:→ deniel367: 因為我在網路看過許多例子,以及一些實證研究的論文有 12/10 21:37
19F:→ deniel367: 用EM來填補缺失值,得到不錯效果,也常看到一種說法是 12/10 21:37
20F:→ deniel367: ,EM通常是除了multiple imputation法之外,最被推薦 12/10 21:38
21F:→ deniel367: 的填補缺失值的方法。 12/10 21:38
22F:→ deniel367: 舉國內最知名的統計顧問,晨晰統計為例,他使用SPSS, 12/10 21:38
24F:→ deniel367: 但是..小弟我搞到懷疑人生..懷疑自己不適合繼續做統計 12/10 21:38
25F:→ deniel367: 、讀數學.. 搜尋了三天還是想不通具體而言是怎麼填補 12/10 21:38
26F:→ deniel367: 的QQ 12/10 21:38
27F:→ deniel367: 我自己猜是這樣:用大大你提到的notation:Z,隱藏變量 12/10 21:38
28F:→ deniel367: ,然後令X為觀察值。 每一次E-step,填補的缺失值就是 12/10 21:38
29F:→ deniel367: E(Z | X,θ)。 我最主要問題是..這個期望值的機率密 12/10 21:38
30F:→ deniel367: 度函數是什麼?X要取所有的觀察值嗎?還是只要取同一 12/10 21:38
31F:→ deniel367: 個case的其他觀察值即可?諸如此類細節步驟的問題 12/10 21:38
32F:→ obarisk: 如果是專業的話,請讀 12/10 22:41
33F:→ obarisk: Statistical Analysis with Missing Data 12/10 22:41
34F:→ obarisk: Little, Rubin 12/10 22:43
35F:→ obarisk: 然後自己寫一次 EM。分配看你的假設,套裝軟體應該就是常 12/10 22:44
36F:→ obarisk: 態,自己寫EM就看你怎麼假設分配 12/10 22:45
37F:→ obarisk: 但是EM的精神真的不是用來補值...值一補進去,統計量就 12/10 22:45
38F:→ obarisk: 就會受影響 12/10 22:45
39F:→ jayfei2000: 臉書的相關社團 有一些高手存在, 12/11 00:21
40F:→ jayfei2000: 就我所知道的「大學數學」這個社團裡面有各個大學的 12/11 00:21
41F:→ jayfei2000: 助教跟博士研究生。 12/11 00:21
42F:→ jayfei2000: 所以你去找一找臉書的相關社團 (國內外)詢問, 12/11 00:21
43F:→ jayfei2000: 說不定也可以得到答案。 12/11 00:21
44F:→ jayfei2000: 臉書的外國社團是五花八門的, 12/11 00:21
45F:→ jayfei2000: 什麼都有。 12/11 00:21
46F:→ celestialgod: 可是要用EM的前提是要知道資料的分布 12/11 20:07
47F:→ celestialgod: 通常資料也不是常態那麼簡單,我無法理解你說的 12/11 20:07
48F:→ celestialgod: 除了multiple imputation外,最常用的是EM這句話 12/11 20:08
49F:→ celestialgod: 我還是覺得像是obarisk板友說的去看專業書籍所討論 12/11 20:08
50F:→ celestialgod: 的方法會比較好 12/11 20:08
51F:→ celestialgod: 至於你問的問題,我覺得你應該直接去看一下GMM怎麼 12/11 20:10
52F:→ celestialgod: 推導比較有感覺 12/11 20:10
53F:→ obarisk: Gaussian Mixture Model嗎 12/11 22:56
54F:→ obarisk: 確實比較容易瞭解EM 12/11 22:56
55F:→ clickhere: E(Z|X,θ)只適用在logL為Z的線性函數才是對的. 12/12 08:54
56F:→ clickhere: 一般就只有Binomial,Normal,Mixture才像是在impute. 12/12 08:55
57F:→ clickhere: 其他情形可不一定是. 12/12 08:56
58F:→ clickhere: E-step的正確說法並不是在補遺失值. 12/12 08:58
59F:→ clickhere: Wiki上的 Expectation–maximization algorithm 講得很 12/12 09:00
60F:→ clickhere: 清楚. 12/12 09:00
61F:→ deniel367: 謝謝各位 解說,我再看看 12/15 21:55