作者iphone2003 (307)
看板Statistics
标题[问题] 缺少资料时的likelihood function
时间Wed Aug 26 18:33:21 2020
如果是跟统计软体有关请重发文章,使用程式做为分类。
统计软体,如SPSS, AMOS, SAS, R, STATA, Eviews,请都使用程式做为分类
请详述问题内容,以利板友帮忙解答,过短文章依板规处置,请注意。
为避免版面混乱,请勿手动置底问题,善用E做档案编辑
这是看hogg数统(第7版),EM演算法那一节时遇到的问题
https://i.imgur.com/hbha8dA.jpg
https://i.imgur.com/HOYVtOR.jpg
图中的6.6.1式我看了很久都不知道是怎麽来的
我的理解是X和Z都有相同的pdf
所以6.6.2才会写成这个样子
但是不知道为什麽6.6.1中,前面还会多乘 [1-F(a-theta)]^n2
另外一个问题是
如果「X和Z都有相同的pdf」这个理解没错
那为什麽在第二张图中,还会从6.6.13来得出Z的pdf?
那如果Z的pdf确实和X不同,而是像第二张图写的:f(z-theta) / [1-F(a-theta)]
那为什麽6.6.2的likelihood又会写成这样?
我觉得我好像连第一段描述的内容都没有很完全理解
所以对於後面这些式子才会都搞不太清楚彼此的关系
麻烦大家解惑了
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.67.176 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1598438003.A.27E.html
※ 编辑: iphone2003 (140.112.67.176 台湾), 08/26/2020 18:34:07
1F:→ Pieteacher: censor08/26 21:26
2F:→ hsnuyi: 你知道有n2个z 他们都大於a 但不知确切数值08/26 22:32
3F:→ yhliu: (11)式是 conditional likelihood, 也就是 n2 个 censored08/28 08:13
4F:→ yhliu: data 的机率乘上 n1 个 observations 的联合 p.d.f.,08/28 08:15
5F:→ yhliu: (12) 式是假设的 complete likelihood, 也就是如果 n1+n208/28 08:16
6F:→ yhliu: observations 都能观测到, 其联合 p.d.f.08/28 08:17
7F:→ yhliu: EM-algorithm 是利用已观测到的(n1个 x's 及 n2个censored)08/28 08:20
8F:→ yhliu: 以 "平均法" 插补未观测到的 z's. 再把这些插补资料代入08/28 08:22
9F:→ yhliu: complete likelihood. 而文中是直接求 complete likelihood08/28 08:24
10F:→ yhliu: 之对数的期望值, 整合前述两步骤, 这就是 E-step.08/28 08:25
11F:→ yhliu: 所以 Q 就是以插补的 z's 代入的 complete likelihood, 08/28 08:27
12F:→ yhliu: 所以 M-step (maximum likelihood) 就是极大化 Q 的值.08/28 08:28
感谢大家的回覆,不过我还是没有很懂
首先是关於censored data
其实这是我第一次看到这个词,查了一下之後的理解感觉是「有观测但是不知道正确的值
为何」
而这些censored data (Z) 跟X是独立的
那我不太懂的地方是,11式的L(theta|x)为什麽会是conditional likelihood?
L(theta|x)看起来跟Z没有关联,为何会需要考虑Z的机率?
另外一个问题是
如果我前面对censored data的理解无误,那Z本质上应该是跟X有一样的pdf吧(?
那麽第二张图片的前两行,文中提到的
「Z1,....Zn2 are iid with the common pdf f(z-theta)/[1-F(a-theta)] 」
感觉就有点奇怪?
※ 编辑: iphone2003 (114.136.10.238 台湾), 08/29/2020 03:53:15
13F:→ yhliu: 把(11)称 conditional likelihood 是我的错. 08/30 18:11
14F:→ yhliu: 由於 n2 个 z's 只知道 z_i > a, 因此只能由 P[Z_i>a;θ] 08/30 18:14
15F:→ yhliu: 获得 θ 的讯息. 所以由 observed data 给的 information 08/30 18:16
16F:→ yhliu: 用 (11) 戌表示. 而如果不是 censored at a, 所有 z's 也被 08/30 18:17
17F:→ yhliu: 完全观测到, 这假想的, 完整的 likelihood 就是 (12) 式. 08/30 18:19
18F:→ yhliu: 虽然 n2 个 z's 未被完整观测到, 但却知道它们大於 a, 这当08/30 18:21
19F:→ yhliu: 然也携带了 θ 的 information, 因此不能直接把它们丢弃不08/30 18:23
20F:→ yhliu: 用. 所以, 或者用 (11) 式进行统计推论, 或者如文中以 (12)08/30 18:25
21F:→ yhliu: 戌为基础进行 EM algorithm 对 θ 做估计.08/30 18:26
22F:→ yhliu: Unconditionally, z_i's 和 x_j's 是 i.i.d., conditional 08/30 18:29
23F:→ yhliu: on z_i>a,则 z_1,...,z_n2 是i.i.d. f(z_i-θ)/[1-F(a-θ)]08/30 18:31
24F:→ yhliu: (13) 式就是 given observed data 时 z's 的联合条件p.d.f.08/30 18:34
25F:→ yhliu: 而由(13)式知此条件p.d.f.与诸 x's 无关, 只和 a 有关.08/30 18:36
26F:→ yhliu: 而且(13)式明白显示了 z_i's 在共同 censoring time a 之下 08/30 18:38
27F:→ yhliu: 是 i.i.d. 的.08/30 18:38
了解了,这个说明有看比较懂了
非常感谢!
※ 编辑: iphone2003 (36.226.12.16 台湾), 09/01/2020 02:38:02