作者deniel367 (dann)

看板Statistics

标题

[问题] EM演算法，填补缺失值

时间Sun Dec 9 15:53:00 2018

大家好，最近在读EM(expectation maximization) algorithm，卡关了...ＱＱ在网路上搜寻了一番，苦恼了两天也找不到答案卡关的部分主要在於，不太懂如何用EM去填补缺失值 (missing values imputation) 先说我对於EM本身的了解程度：我对於EM的理解来自於这篇文：https://reurl.cc/Y9NRL 文中提到的算法推导过程我大概可以懂，对於文中提到的EM其中一种使用方法我也可以懂。(文中提到可以使用EM去把200个人(有男有女)分成两群，男＆女，并且分别估计这两群的分布的参数) 但是我想不通如何用EM去填补缺失值，网上也找不到实例说明。我的猜想是.. 参考文中提到的notation，我们把x另为observed, 那z就是missing value s 我们最主要目的是要最大化 L(x,z | θ )，然後透过EM的不断迭代去不断估计z，最後收敛，填补缺失值？如果我的这个猜想是对的，那麽有两个问题： 1, 文中的p，也就是机率密度函数，要如何设定。另外我看到有人用SPSS，https://reurl.cc/dXkvk，选择normal！这个也很让人困惑。这是代表一个datasets里头，所有的variables都分别是normal distribution，然後最大概似估计的p是所有的normal混在一起吗？ 1, 文中提到的E-step，仅得出z的posterior probability，可以用这个资讯来得到z的估计值吗？如果missing values有5个，那估计出来的是对应到5个中哪一个？如果我上面两个问题很不清楚，甚至是根本问错问题...真的很抱歉。觉得现在一片混乱..QQ 可能处在一个连问问题都不太知道该怎麽问的状态谢谢！ --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.125.22 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1544341983.A.94C.html

1^F：→ obarisk: 都用em了，为什麽要补值？ 12/09 18:16

2^F：→ obarisk: 直接进到後面的m啊... 12/09 18:17

3^F：→ deniel367: obarisk：大大不好意思，我不太懂你的意思。我今天的 12/09 19:25

4^F：→ deniel367: 主要目的就是要 impute missing values，然後想要用 EM 12/09 19:25

5^F：→ deniel367: 的方式，什麽叫做不用补值... 12/09 19:25

6^F：→ jayfei2000: 请问你有没有去脸书的相关社团询问过? 12/10 03:44

7^F：→ deniel367: jayfei2000 : 没有，好奇怎麽会这样问 12/10 19:02

8^F：推 celestialgod: EM是计算资料有遗失或是未观察的变数下的likelihood 12/10 20:09

9^F：推 celestialgod: ，通常遗失或未观察的值并不会直接拿来用，它只是过 12/10 20:09

10^F：推 celestialgod: 程中的一个参数而已。 12/10 20:09

11^F：推 celestialgod: 最常见的例子是GMM，它是假设资料来自多群Gaussian 12/10 20:14

12^F：推 celestialgod: 分布（常态），而我们不知道它mixture的比例，我们 12/10 20:14

13^F：推 celestialgod: 透过对没有观察到的变数Z，代表各群，进而求得每一 12/10 20:14

14^F：推 celestialgod: 群的mean跟variance。当然我们最後可以z当做cluster 12/10 20:14

15^F：推 celestialgod: ing的output。 12/10 20:14

16^F：→ deniel367: celestialgod：谢谢回覆。你提到通常遗失或未观察的 12/10 21:37

17^F：→ deniel367: 值并不会直接拿来用，这句话我有疑问。 12/10 21:37

18^F：→ deniel367: 因为我在网路看过许多例子，以及一些实证研究的论文有 12/10 21:37

19^F：→ deniel367: 用EM来填补缺失值，得到不错效果，也常看到一种说法是 12/10 21:37

20^F：→ deniel367: ，EM通常是除了multiple imputation法之外，最被推荐 12/10 21:38

21^F：→ deniel367: 的填补缺失值的方法。 12/10 21:38

22^F：→ deniel367: 举国内最知名的统计顾问，晨晰统计为例，他使用SPSS， 12/10 21:38

23^F：→ deniel367: 将EM法拿来填补缺失值：https://reurl.cc/Mba4n。 12/10 21:38

24^F：→ deniel367: 但是..小弟我搞到怀疑人生..怀疑自己不适合继续做统计 12/10 21:38

25^F：→ deniel367: 、读数学.. 搜寻了三天还是想不通具体而言是怎麽填补 12/10 21:38

26^F：→ deniel367: 的QQ 12/10 21:38

27^F：→ deniel367: 我自己猜是这样：用大大你提到的notation：Z，隐藏变量 12/10 21:38

28^F：→ deniel367: ，然後令X为观察值。每一次E-step，填补的缺失值就是 12/10 21:38

29^F：→ deniel367: E(Z | X,θ)。我最主要问题是..这个期望值的机率密 12/10 21:38

30^F：→ deniel367: 度函数是什麽？X要取所有的观察值吗？还是只要取同一 12/10 21:38

31^F：→ deniel367: 个case的其他观察值即可？诸如此类细节步骤的问题 12/10 21:38

32^F：→ obarisk: 如果是专业的话，请读 12/10 22:41

33^F：→ obarisk: Statistical Analysis with Missing Data 12/10 22:41

34^F：→ obarisk: Little, Rubin 12/10 22:43

35^F：→ obarisk: 然後自己写一次 EM。分配看你的假设，套装软体应该就是常 12/10 22:44

36^F：→ obarisk: 态，自己写EM就看你怎麽假设分配 12/10 22:45

37^F：→ obarisk: 但是EM的精神真的不是用来补值...值一补进去，统计量就 12/10 22:45

38^F：→ obarisk: 就会受影响 12/10 22:45

39^F：→ jayfei2000: 脸书的相关社团有一些高手存在， 12/11 00:21

40^F：→ jayfei2000: 就我所知道的「大学数学」这个社团里面有各个大学的 12/11 00:21

41^F：→ jayfei2000: 助教跟博士研究生。 12/11 00:21

42^F：→ jayfei2000: 所以你去找一找脸书的相关社团（国内外）询问， 12/11 00:21

43^F：→ jayfei2000: 说不定也可以得到答案。 12/11 00:21

44^F：→ jayfei2000: 脸书的外国社团是五花八门的， 12/11 00:21

45^F：→ jayfei2000: 什麽都有。 12/11 00:21

46^F：→ celestialgod: 可是要用EM的前提是要知道资料的分布 12/11 20:07

47^F：→ celestialgod: 通常资料也不是常态那麽简单，我无法理解你说的 12/11 20:07

48^F：→ celestialgod: 除了multiple imputation外，最常用的是EM这句话 12/11 20:08

49^F：→ celestialgod: 我还是觉得像是obarisk板友说的去看专业书籍所讨论 12/11 20:08

50^F：→ celestialgod: 的方法会比较好 12/11 20:08

51^F：→ celestialgod: 至於你问的问题，我觉得你应该直接去看一下GMM怎麽 12/11 20:10

52^F：→ celestialgod: 推导比较有感觉 12/11 20:10

53^F：→ obarisk: Gaussian Mixture Model吗 12/11 22:56

54^F：→ obarisk: 确实比较容易了解EM 12/11 22:56

55^F：→ clickhere: E(Z|X,θ)只适用在logL为Z的线性函数才是对的. 12/12 08:54

56^F：→ clickhere: 一般就只有Binomial,Normal,Mixture才像是在impute. 12/12 08:55

57^F：→ clickhere: 其他情形可不一定是. 12/12 08:56

58^F：→ clickhere: E-step的正确说法并不是在补遗失值. 12/12 08:58

59^F：→ clickhere: Wiki上的 Expectation–maximization algorithm 讲得很 12/12 09:00

60^F：→ clickhere: 清楚. 12/12 09:00

61^F：→ deniel367: 谢谢各位解说，我再看看 12/15 21:55

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

[问题] EM演算法，填补缺失值

热门看板

赞助商连结