看板Statistics
标 题[转贴] 无常数项线性模型的 R^2
发信站无名小站 (Fri Apr 7 22:05:33 2006)
转信站ptt!Group.NCTU!grouppost!Group.NCTU!wretch
(旧文, 略做修正)
==> 在 twelve@cis_nctu (小虾) 的文章中提到:
> 为什麽判定系数(R-square)只有在常数项存在模式中才有效?
> (why the coefficient of determination is valid only if
> a constant term is included in the model?)
何谓 "有效"?
依我的观点, 只要有适当的定义, 并满足研究者所希望的
性质, 就是有效. 因此判定系数有效或无效, 重点不在是
否回归模型有常数项, 而在於你认为它应具有甚麽性质.
==> 在 lmvue@cis_nctu (还猪格格) 的文章中提到:
> 其实这个问题应该与R-square的定义有关...
> 一般而言,R-square=1-(SSE)/SST
> 而SST在一般俗成的定义为SST=Sum(Yi-Yba)^2
> 但在无常数项的模型中,SST=Sum(Yi)^2,所以当然不适用....
^^^^^^^^^^^也不见得! :)
在非线性模型, R^2 照样在用!
所谓 "不适用", 是依我们希望 R^2 具有甚麽性质而定的.
==> 在 auvoir@cis_nctu (void) 的文章中提到:
> 嗯我想我大概懂 lmvue 和 yhliu 两位的意思
> yhliu 的意思好像是, 不论 R^2 如何定义,
> 称 p 为在被模型解释後剩下的 variation 及 data 本身所呈
> 现的 variation 的比例, 则 R^2=1-p.
通常 R^2 是用 "variation" 来表示的, 也就是你说的意
义. 而且,通常 "variation" 是以 "离均平方和" 或 "均
方差" 来定义的. 这种平方和与 R^2, 又可称是 "平均数
校正後" 的平方和与 R^2.
"R^2 在无常数项线性模型不适用" 的意思有二:
(1) 在无常数项回归模型中, SST=SSR+SSE 不成立
(2) 在此种模型, 若定义 R^2=1-(SSE/SST), 其结果可能
为负.
就 (1) 而言, 本来 SST=SSR+SSE 可让我们得到
R^2=SSR/SST,
或
(deg. freedom) adjusted R^2 = MSR/MST
但无常数项,则 R^2 用 SSR/SST 或 1-SSE/SST 定义结果
不同, 这造成困扰. 就 (2) 而言,R^2 既被赋以 "模型解
释变异比例" 之意义, 却得到负值, 难以解释.
但, R^2 当然也可定义为: 二阶原点动差被解释的比例.
也就是下一段所述无常数项回归中 R^2 的定义. 这样的
R^2, 其问题在於:
(1) R^2 和 "原点" 有关, 也就是说: 原点改变, 则 R^2
也改变.
(2) 在有常数项线性模型, 平均数校正後的 R^2 (相当於
以反应变数之平均数为原点) 较小. 换句话说: 以原
点动差定义的 R^2 偏高.
> 换句话说, R^2 反印出这个模型解释走了多少原来资料的变异部份.
> 比如说, 在有截距的的线性回归,
> 这里的<被模型解释後剩下的 variation>就是 sum((y_i - fitted(y_i))^2)
> 就是所谓的 SSE.
> 这里的<data 本身所呈现的 variation>就是 sum((y_i - avg(y_i))^2)
> 而如果在无截距的线性回归,
> 就像 lmvue 所写的,
> <被模型解释後的 variation> 一样是 sum((y_i - fitted(y_i))^2)
> <data 本身所呈现的 variation>变成是 sum((y_i)^2)
> 变成是测量和 0 之间的 variation,
> 而不是如有截距的情形, 是测量和 avg(y_i) 间的 variation.
> 因次其实不论在什麽模型之下,
> R^2 要测量的东西都是模型能解释资料变异的 proportion 有多少
> 不同的模型有不同的<技术上>的定义罢了.
> 这是我从两位之前的回答和自己参考一些基本的线性回归的书得到的.
> 如果有错误还麻烦两位不吝指证.
> 但我不了解的有两点,
> 第一, 为什麽在无截距的线性回归和非线性回归,
> SST 的定义要被改变?
若考虑的线性模型不一定具有常数项, 则以原点为中心的
"变异量" 满足 SST=SSR+SSE 的要求. 因此, 若要比较的
模型包含无常数项模型时, 一律以原点为中心计算, 才可
能相互比较.
> 我试着做简单的无截距线性回归的情形, 发现,
> 若以有截距线性回归下定义的 SST 来做,
> 在 sample size 很大的时候
> 是很有可能小於 SSE 的.
> 而无截距线性回归下定义的 SST, 就不会发生这种情形.
> 难道这是之所以要将 SST 调整定义的原因吗?
> 第二, 那为什麽是零呢? 零对我而言并不直观啊!
> 是不是从什麽方向来想就会使它直观而这是我没有注意到的呢?
如上!
如果我们不执着於在普通 (有常数项) 回归模型所获得的
观念, 而 R^2 只是要表示
"模型对资料的分布提供多少解释"
那麽, 以平均数为中心的 R^2=1-SSE/SST, 都表示
"考虑模型配适和假设资料来自同一群体时残差分散
量度的消减程度"
因此,R^2= 1-SSE/SST 的定义无论有无常数项, 无论是否
为线性模型, 都可用. 可能为负又何妨? 那只表示:
将资料配适这个模型後, 残差平方和反而增大!
这没意义吗? 或许! 但在这个时候, 我想我会怀疑:
这个模型适当吗?
因此, 即使在非线性模型, R^2 仍被许多应用者采用. 甚
至在 "平方和" 这样的概念不适合的时候, 例如类别资料
分析, 应用者也常在问: 有无类似 R^2 的指标?
回到无常数项线性模型的问题. 以原点为中心的 "变异量"
(平方和) 适用吗? 须知:若一组资料被认为可用无常数项
的线性模型表示, 则
(1) 这个原点 (反应变数及解释变数) 是确定, 而且有意
义的!
(2) 分析者有坚强的理由认为无常数项模型适合这些资料.
因此, 即使用平均数为中心来计算平方和, 也不至於发生
R^2<0 的情形(这不是数学). 但另一方面, 既然原点很明
确而且有意义, 我们以资料点 (及配适点) 离原点的距离
计算平方和, 并依此计算 R^2, 仍是有意义的, 只是其意
义不在於 "分散程度", 而在於 "和原点的差距".
--
来自统计专业的召唤...
无名小站 telnet://wretch.twbbs.org Statistics (统计方法讨论区)
成大计中站 telnet://bbs.ncku.edu.tw Statistics (统计方法及学理讨论区)
盈月与繁星 telnet://ms.twbbs.org Statistics (统计:让数字说话)
交大资讯次世代 telnet://bs2.twbbs.org Statistics (统计与机率)
★本文未经本人同意请勿转载; 回覆请勿全文引用, 请仅留下直接涉及部分。
--
夫兵者不祥之器物或恶之故有道者不处君子居则贵左用兵则贵右兵者不祥之器非君子
之器不得已而用之恬淡为上胜而不美而美之者是乐杀人夫乐杀人者则不可得志於天下
矣吉事尚左凶事尚右偏将军居左上将军居右言以丧礼处之杀人之众以哀悲泣之战胜以
丧礼处之道常无名朴虽小天下莫能臣侯王若能守之万物将自宾天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦将知止知 218-174-209-139.dynamic.hinet.net海