作者deniel367 (dann)
看板Statistics
标题[问题] EM演算法,填补缺失值
时间Sun Dec 9 15:53:00 2018
大家好,最近在读EM(expectation maximization) algorithm,卡关了...QQ 在网路上
搜寻了一番,苦恼了两天也找不到答案
卡关的部分主要在於,不太懂如何用EM去填补缺失值 (missing values imputation)
先说我对於EM本身的了解程度:
我对於EM的理解来自於这篇文:
https://reurl.cc/Y9NRL
文中提到的算法推导过程我大概可以懂,对於文中提到的EM其中一种使用方法我也可以懂
。(文中提到可以使用EM去把200个人(有男有女)分成两群,男&女,并且分别估计这两群
的分布的参数)
但是我想不通如何用EM去填补缺失值,网上也找不到实例说明。
我的猜想是.. 参考文中提到的notation,我们把x另为observed, 那z就是missing value
s
我们最主要目的是要最大化 L(x,z | θ ),然後透过EM的不断迭代去不断估计z,最後收
敛,填补缺失值?
如果我的这个猜想是对的,那麽有两个问题:
1, 文中的p,也就是机率密度函数,要如何设定。
另外我看到有人用SPSS,
https://reurl.cc/dXkvk,选择normal!这个也很让人困惑。
这是代表一个datasets里头,所有的variables都分别是normal distribution,然後最大
概似估计的p是所有的normal混在一起吗?
1, 文中提到的E-step,仅得出z的posterior probability,可以用这个资讯来得到z的估
计值吗? 如果missing values有5个,那估计出来的是对应到5个中哪一个?
如果我上面两个问题很不清楚,甚至是根本问错问题...真的很抱歉。
觉得现在一片混乱..QQ 可能处在一个连问问题都不太知道该怎麽问的状态
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.125.22
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1544341983.A.94C.html
1F:→ obarisk: 都用em了,为什麽要补值? 12/09 18:16
2F:→ obarisk: 直接进到後面的m啊... 12/09 18:17
3F:→ deniel367: obarisk: 大大不好意思,我不太懂你的意思。我今天的 12/09 19:25
4F:→ deniel367: 主要目的就是要 impute missing values,然後想要用 EM 12/09 19:25
5F:→ deniel367: 的方式,什麽叫做不用补值... 12/09 19:25
6F:→ jayfei2000: 请问你有没有去脸书的相关社团询问过? 12/10 03:44
7F:→ deniel367: jayfei2000 : 没有,好奇怎麽会这样问 12/10 19:02
8F:推 celestialgod: EM是计算资料有遗失或是未观察的变数下的likelihood 12/10 20:09
9F:推 celestialgod: ,通常遗失或未观察的值并不会直接拿来用,它只是过 12/10 20:09
10F:推 celestialgod: 程中的一个参数而已。 12/10 20:09
11F:推 celestialgod: 最常见的例子是GMM,它是假设资料来自多群Gaussian 12/10 20:14
12F:推 celestialgod: 分布(常态),而我们不知道它mixture的比例,我们 12/10 20:14
13F:推 celestialgod: 透过对没有观察到的变数Z,代表各群,进而求得每一 12/10 20:14
14F:推 celestialgod: 群的mean跟variance。当然我们最後可以z当做cluster 12/10 20:14
15F:推 celestialgod: ing的output。 12/10 20:14
16F:→ deniel367: celestialgod: 谢谢回覆。你提到通常遗失或未观察的 12/10 21:37
17F:→ deniel367: 值并不会直接拿来用,这句话我有疑问。 12/10 21:37
18F:→ deniel367: 因为我在网路看过许多例子,以及一些实证研究的论文有 12/10 21:37
19F:→ deniel367: 用EM来填补缺失值,得到不错效果,也常看到一种说法是 12/10 21:37
20F:→ deniel367: ,EM通常是除了multiple imputation法之外,最被推荐 12/10 21:38
21F:→ deniel367: 的填补缺失值的方法。 12/10 21:38
22F:→ deniel367: 举国内最知名的统计顾问,晨晰统计为例,他使用SPSS, 12/10 21:38
24F:→ deniel367: 但是..小弟我搞到怀疑人生..怀疑自己不适合继续做统计 12/10 21:38
25F:→ deniel367: 、读数学.. 搜寻了三天还是想不通具体而言是怎麽填补 12/10 21:38
26F:→ deniel367: 的QQ 12/10 21:38
27F:→ deniel367: 我自己猜是这样:用大大你提到的notation:Z,隐藏变量 12/10 21:38
28F:→ deniel367: ,然後令X为观察值。 每一次E-step,填补的缺失值就是 12/10 21:38
29F:→ deniel367: E(Z | X,θ)。 我最主要问题是..这个期望值的机率密 12/10 21:38
30F:→ deniel367: 度函数是什麽?X要取所有的观察值吗?还是只要取同一 12/10 21:38
31F:→ deniel367: 个case的其他观察值即可?诸如此类细节步骤的问题 12/10 21:38
32F:→ obarisk: 如果是专业的话,请读 12/10 22:41
33F:→ obarisk: Statistical Analysis with Missing Data 12/10 22:41
34F:→ obarisk: Little, Rubin 12/10 22:43
35F:→ obarisk: 然後自己写一次 EM。分配看你的假设,套装软体应该就是常 12/10 22:44
36F:→ obarisk: 态,自己写EM就看你怎麽假设分配 12/10 22:45
37F:→ obarisk: 但是EM的精神真的不是用来补值...值一补进去,统计量就 12/10 22:45
38F:→ obarisk: 就会受影响 12/10 22:45
39F:→ jayfei2000: 脸书的相关社团 有一些高手存在, 12/11 00:21
40F:→ jayfei2000: 就我所知道的「大学数学」这个社团里面有各个大学的 12/11 00:21
41F:→ jayfei2000: 助教跟博士研究生。 12/11 00:21
42F:→ jayfei2000: 所以你去找一找脸书的相关社团 (国内外)询问, 12/11 00:21
43F:→ jayfei2000: 说不定也可以得到答案。 12/11 00:21
44F:→ jayfei2000: 脸书的外国社团是五花八门的, 12/11 00:21
45F:→ jayfei2000: 什麽都有。 12/11 00:21
46F:→ celestialgod: 可是要用EM的前提是要知道资料的分布 12/11 20:07
47F:→ celestialgod: 通常资料也不是常态那麽简单,我无法理解你说的 12/11 20:07
48F:→ celestialgod: 除了multiple imputation外,最常用的是EM这句话 12/11 20:08
49F:→ celestialgod: 我还是觉得像是obarisk板友说的去看专业书籍所讨论 12/11 20:08
50F:→ celestialgod: 的方法会比较好 12/11 20:08
51F:→ celestialgod: 至於你问的问题,我觉得你应该直接去看一下GMM怎麽 12/11 20:10
52F:→ celestialgod: 推导比较有感觉 12/11 20:10
53F:→ obarisk: Gaussian Mixture Model吗 12/11 22:56
54F:→ obarisk: 确实比较容易了解EM 12/11 22:56
55F:→ clickhere: E(Z|X,θ)只适用在logL为Z的线性函数才是对的. 12/12 08:54
56F:→ clickhere: 一般就只有Binomial,Normal,Mixture才像是在impute. 12/12 08:55
57F:→ clickhere: 其他情形可不一定是. 12/12 08:56
58F:→ clickhere: E-step的正确说法并不是在补遗失值. 12/12 08:58
59F:→ clickhere: Wiki上的 Expectation–maximization algorithm 讲得很 12/12 09:00
60F:→ clickhere: 清楚. 12/12 09:00
61F:→ deniel367: 谢谢各位 解说,我再看看 12/15 21:55