作者deniel367 (dann)

看板Statistics

標題

[問題] EM演算法，填補缺失值

時間Sun Dec 9 15:53:00 2018

大家好，最近在讀EM(expectation maximization) algorithm，卡關了...ＱＱ在網路上搜尋了一番，苦惱了兩天也找不到答案卡關的部分主要在於，不太懂如何用EM去填補缺失值 (missing values imputation) 先說我對於EM本身的了解程度：我對於EM的理解來自於這篇文：https://reurl.cc/Y9NRL 文中提到的算法推導過程我大概可以懂，對於文中提到的EM其中一種使用方法我也可以懂。(文中提到可以使用EM去把200個人(有男有女)分成兩群，男＆女，並且分別估計這兩群的分佈的參數) 但是我想不通如何用EM去填補缺失值，網上也找不到實例說明。我的猜想是.. 參考文中提到的notation，我們把x另為observed, 那z就是missing value s 我們最主要目的是要最大化 L(x,z | θ )，然後透過EM的不斷迭代去不斷估計z，最後收斂，填補缺失值？如果我的這個猜想是對的，那麼有兩個問題： 1, 文中的p，也就是機率密度函數，要如何設定。另外我看到有人用SPSS，https://reurl.cc/dXkvk，選擇normal！這個也很讓人困惑。這是代表一個datasets裏頭，所有的variables都分別是normal distribution，然後最大概似估計的p是所有的normal混在一起嗎？ 1, 文中提到的E-step，僅得出z的posterior probability，可以用這個資訊來得到z的估計值嗎？如果missing values有5個，那估計出來的是對應到5個中哪一個？如果我上面兩個問題很不清楚，甚至是根本問錯問題...真的很抱歉。覺得現在一片混亂..QQ 可能處在一個連問問題都不太知道該怎麼問的狀態謝謝！ --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.125.22 ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1544341983.A.94C.html

1^F：→ obarisk: 都用em了，為什麼要補值？ 12/09 18:16

2^F：→ obarisk: 直接進到後面的m啊... 12/09 18:17

3^F：→ deniel367: obarisk：大大不好意思，我不太懂你的意思。我今天的 12/09 19:25

4^F：→ deniel367: 主要目的就是要 impute missing values，然後想要用 EM 12/09 19:25

5^F：→ deniel367: 的方式，什麼叫做不用補值... 12/09 19:25

6^F：→ jayfei2000: 請問你有沒有去臉書的相關社團詢問過? 12/10 03:44

7^F：→ deniel367: jayfei2000 : 沒有，好奇怎麼會這樣問 12/10 19:02

8^F：推 celestialgod: EM是計算資料有遺失或是未觀察的變數下的likelihood 12/10 20:09

9^F：推 celestialgod: ，通常遺失或未觀察的值並不會直接拿來用，它只是過 12/10 20:09

10^F：推 celestialgod: 程中的一個參數而已。 12/10 20:09

11^F：推 celestialgod: 最常見的例子是GMM，它是假設資料來自多群Gaussian 12/10 20:14

12^F：推 celestialgod: 分佈（常態），而我們不知道它mixture的比例，我們 12/10 20:14

13^F：推 celestialgod: 透過對沒有觀察到的變數Z，代表各群，進而求得每一 12/10 20:14

14^F：推 celestialgod: 群的mean跟variance。當然我們最後可以z當做cluster 12/10 20:14

15^F：推 celestialgod: ing的output。 12/10 20:14

16^F：→ deniel367: celestialgod：謝謝回覆。你提到通常遺失或未觀察的 12/10 21:37

17^F：→ deniel367: 值並不會直接拿來用，這句話我有疑問。 12/10 21:37

18^F：→ deniel367: 因為我在網路看過許多例子，以及一些實證研究的論文有 12/10 21:37

19^F：→ deniel367: 用EM來填補缺失值，得到不錯效果，也常看到一種說法是 12/10 21:37

20^F：→ deniel367: ，EM通常是除了multiple imputation法之外，最被推薦 12/10 21:38

21^F：→ deniel367: 的填補缺失值的方法。 12/10 21:38

22^F：→ deniel367: 舉國內最知名的統計顧問，晨晰統計為例，他使用SPSS， 12/10 21:38

23^F：→ deniel367: 將EM法拿來填補缺失值：https://reurl.cc/Mba4n。 12/10 21:38

24^F：→ deniel367: 但是..小弟我搞到懷疑人生..懷疑自己不適合繼續做統計 12/10 21:38

25^F：→ deniel367: 、讀數學.. 搜尋了三天還是想不通具體而言是怎麼填補 12/10 21:38

26^F：→ deniel367: 的QQ 12/10 21:38

27^F：→ deniel367: 我自己猜是這樣：用大大你提到的notation：Z，隱藏變量 12/10 21:38

28^F：→ deniel367: ，然後令X為觀察值。每一次E-step，填補的缺失值就是 12/10 21:38

29^F：→ deniel367: E(Z | X,θ)。我最主要問題是..這個期望值的機率密 12/10 21:38

30^F：→ deniel367: 度函數是什麼？X要取所有的觀察值嗎？還是只要取同一 12/10 21:38

31^F：→ deniel367: 個case的其他觀察值即可？諸如此類細節步驟的問題 12/10 21:38

32^F：→ obarisk: 如果是專業的話，請讀 12/10 22:41

33^F：→ obarisk: Statistical Analysis with Missing Data 12/10 22:41

34^F：→ obarisk: Little, Rubin 12/10 22:43

35^F：→ obarisk: 然後自己寫一次 EM。分配看你的假設，套裝軟體應該就是常 12/10 22:44

36^F：→ obarisk: 態，自己寫EM就看你怎麼假設分配 12/10 22:45

37^F：→ obarisk: 但是EM的精神真的不是用來補值...值一補進去，統計量就 12/10 22:45

38^F：→ obarisk: 就會受影響 12/10 22:45

39^F：→ jayfei2000: 臉書的相關社團有一些高手存在， 12/11 00:21

40^F：→ jayfei2000: 就我所知道的「大學數學」這個社團裡面有各個大學的 12/11 00:21

41^F：→ jayfei2000: 助教跟博士研究生。 12/11 00:21

42^F：→ jayfei2000: 所以你去找一找臉書的相關社團（國內外）詢問， 12/11 00:21

43^F：→ jayfei2000: 說不定也可以得到答案。 12/11 00:21

44^F：→ jayfei2000: 臉書的外國社團是五花八門的， 12/11 00:21

45^F：→ jayfei2000: 什麼都有。 12/11 00:21

46^F：→ celestialgod: 可是要用EM的前提是要知道資料的分布 12/11 20:07

47^F：→ celestialgod: 通常資料也不是常態那麼簡單，我無法理解你說的 12/11 20:07

48^F：→ celestialgod: 除了multiple imputation外，最常用的是EM這句話 12/11 20:08

49^F：→ celestialgod: 我還是覺得像是obarisk板友說的去看專業書籍所討論 12/11 20:08

50^F：→ celestialgod: 的方法會比較好 12/11 20:08

51^F：→ celestialgod: 至於你問的問題，我覺得你應該直接去看一下GMM怎麼 12/11 20:10

52^F：→ celestialgod: 推導比較有感覺 12/11 20:10

53^F：→ obarisk: Gaussian Mixture Model嗎 12/11 22:56

54^F：→ obarisk: 確實比較容易瞭解EM 12/11 22:56

55^F：→ clickhere: E(Z|X,θ)只適用在logL為Z的線性函數才是對的. 12/12 08:54

56^F：→ clickhere: 一般就只有Binomial,Normal,Mixture才像是在impute. 12/12 08:55

57^F：→ clickhere: 其他情形可不一定是. 12/12 08:56

58^F：→ clickhere: E-step的正確說法並不是在補遺失值. 12/12 08:58

59^F：→ clickhere: Wiki上的 Expectation–maximization algorithm 講得很 12/12 09:00

60^F：→ clickhere: 清楚. 12/12 09:00

61^F：→ deniel367: 謝謝各位解說，我再看看 12/15 21:55

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Statistics 板

[問題] EM演算法，填補缺失值

熱門看板

贊助商連結