作者whyso (www)
看板Statistics
标题Re: [统计] 相关系数的问题
时间Wed Oct 26 10:18:13 2005
※ 引述《[email protected] ()》之铭言:
: 如果是比较两条 p.d.f. 曲线, f(x) 与 g(x), 可考虑
: ∫(f(x)-g(x))^2 dx (*)
: 这是模仿 density estimation 中的 IMSE (integrated
: mean squared error) 准则的指标. IMSE 是
: ∫E[(f*(x)-f(x))^2] dx 其中 f*(x) 是 f(x) 的估计量
: 但前项指标 (*) 其实也是数学上的 Eculidean-norm 或
: 2-norm.
: 另一可考虑的拍标是 Kulback-Leibler divergence
: ∫ln(f(x)/g(x)) f(x) dx
: 其中对数在 information theory 习惯是取 2 为底,统计
: 上则习惯取自然对数.
如果原始资料是离散的数值,并不具备有像f(x)般的函数曲线,
那麽要如何使用KL divergence来衡量两个数列的相似度呢?
例如,我有两个数列分别是 A: 3,4,6,,9,10,22,16,17.. (共m个)
B: 7,9,25,21,13,17,... (共n个,且 m!=n)
谢谢 :)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.123.102.81