看板Statistics
標 題[轉貼] 無常數項線性模型的 R^2
發信站無名小站 (Fri Apr 7 22:05:33 2006)
轉信站ptt!Group.NCTU!grouppost!Group.NCTU!wretch
(舊文, 略做修正)
==> 在 twelve@cis_nctu (小蝦) 的文章中提到:
> 為什麼判定係數(R-square)只有在常數項存在模式中才有效?
> (why the coefficient of determination is valid only if
> a constant term is included in the model?)
何謂 "有效"?
依我的觀點, 只要有適當的定義, 並滿足研究者所希望的
性質, 就是有效. 因此判定係數有效或無效, 重點不在是
否迴歸模型有常數項, 而在於你認為它應具有甚麼性質.
==> 在 lmvue@cis_nctu (還豬格格) 的文章中提到:
> 其實這個問題應該與R-square的定義有關...
> 一般而言,R-square=1-(SSE)/SST
> 而SST在一般俗成的定義為SST=Sum(Yi-Yba)^2
> 但在無常數項的模型中,SST=Sum(Yi)^2,所以當然不適用....
^^^^^^^^^^^也不見得! :)
在非線性模型, R^2 照樣在用!
所謂 "不適用", 是依我們希望 R^2 具有甚麼性質而定的.
==> 在 auvoir@cis_nctu (void) 的文章中提到:
> 嗯我想我大概懂 lmvue 和 yhliu 兩位的意思
> yhliu 的意思好像是, 不論 R^2 如何定義,
> 稱 p 為在被模型解釋後剩下的 variation 及 data 本身所呈
> 現的 variation 的比例, 則 R^2=1-p.
通常 R^2 是用 "variation" 來表示的, 也就是你說的意
義. 而且,通常 "variation" 是以 "離均平方和" 或 "均
方差" 來定義的. 這種平方和與 R^2, 又可稱是 "平均數
校正後" 的平方和與 R^2.
"R^2 在無常數項線性模型不適用" 的意思有二:
(1) 在無常數項迴歸模型中, SST=SSR+SSE 不成立
(2) 在此種模型, 若定義 R^2=1-(SSE/SST), 其結果可能
為負.
就 (1) 而言, 本來 SST=SSR+SSE 可讓我們得到
R^2=SSR/SST,
或
(deg. freedom) adjusted R^2 = MSR/MST
但無常數項,則 R^2 用 SSR/SST 或 1-SSE/SST 定義結果
不同, 這造成困擾. 就 (2) 而言,R^2 既被賦以 "模型解
釋變異比例" 之意義, 卻得到負值, 難以解釋.
但, R^2 當然也可定義為: 二階原點動差被解釋的比例.
也就是下一段所述無常數項迴歸中 R^2 的定義. 這樣的
R^2, 其問題在於:
(1) R^2 和 "原點" 有關, 也就是說: 原點改變, 則 R^2
也改變.
(2) 在有常數項線性模型, 平均數校正後的 R^2 (相當於
以反應變數之平均數為原點) 較小. 換句話說: 以原
點動差定義的 R^2 偏高.
> 換句話說, R^2 反印出這個模型解釋走了多少原來資料的變異部份.
> 比如說, 在有截距的的線性回歸,
> 這裡的<被模型解釋後剩下的 variation>就是 sum((y_i - fitted(y_i))^2)
> 就是所謂的 SSE.
> 這裡的<data 本身所呈現的 variation>就是 sum((y_i - avg(y_i))^2)
> 而如果在無截距的線性回歸,
> 就像 lmvue 所寫的,
> <被模型解釋後的 variation> 一樣是 sum((y_i - fitted(y_i))^2)
> <data 本身所呈現的 variation>變成是 sum((y_i)^2)
> 變成是測量和 0 之間的 variation,
> 而不是如有截距的情形, 是測量和 avg(y_i) 間的 variation.
> 因次其實不論在什麼模型之下,
> R^2 要測量的東西都是模型能解釋資料變異的 proportion 有多少
> 不同的模型有不同的<技術上>的定義罷了.
> 這是我從兩位之前的回答和自己參考一些基本的線性回歸的書得到的.
> 如果有錯誤還麻煩兩位不吝指證.
> 但我不了解的有兩點,
> 第一, 為什麼在無截距的線性回歸和非線性回歸,
> SST 的定義要被改變?
若考慮的線性模型不一定具有常數項, 則以原點為中心的
"變異量" 滿足 SST=SSR+SSE 的要求. 因此, 若要比較的
模型包含無常數項模型時, 一律以原點為中心計算, 才可
能相互比較.
> 我試著做簡單的無截距線性回歸的情形, 發現,
> 若以有截距線性回歸下定義的 SST 來做,
> 在 sample size 很大的時候
> 是很有可能小於 SSE 的.
> 而無截距線性回歸下定義的 SST, 就不會發生這種情形.
> 難道這是之所以要將 SST 調整定義的原因嗎?
> 第二, 那為什麼是零呢? 零對我而言並不直觀啊!
> 是不是從什麼方向來想就會使它直觀而這是我沒有注意到的呢?
如上!
如果我們不執著於在普通 (有常數項) 迴歸模型所獲得的
觀念, 而 R^2 只是要表示
"模型對資料的分布提供多少解釋"
那麼, 以平均數為中心的 R^2=1-SSE/SST, 都表示
"考慮模型配適和假設資料來自同一群體時殘差分散
量度的消減程度"
因此,R^2= 1-SSE/SST 的定義無論有無常數項, 無論是否
為線性模型, 都可用. 可能為負又何妨? 那只表示:
將資料配適這個模型後, 殘差平方和反而增大!
這沒意義嗎? 或許! 但在這個時候, 我想我會懷疑:
這個模型適當嗎?
因此, 即使在非線性模型, R^2 仍被許多應用者採用. 甚
至在 "平方和" 這樣的概念不適合的時候, 例如類別資料
分析, 應用者也常在問: 有無類似 R^2 的指標?
回到無常數項線性模型的問題. 以原點為中心的 "變異量"
(平方和) 適用嗎? 須知:若一組資料被認為可用無常數項
的線性模型表示, 則
(1) 這個原點 (反應變數及解釋變數) 是確定, 而且有意
義的!
(2) 分析者有堅強的理由認為無常數項模型適合這些資料.
因此, 即使用平均數為中心來計算平方和, 也不至於發生
R^2<0 的情形(這不是數學). 但另一方面, 既然原點很明
確而且有意義, 我們以資料點 (及配適點) 離原點的距離
計算平方和, 並依此計算 R^2, 仍是有意義的, 只是其意
義不在於 "分散程度", 而在於 "和原點的差距".
--
來自統計專業的召喚...
無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區)
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
★本文未經本人同意請勿轉載; 回覆請勿全文引用, 請僅留下直接涉及部分。
--
夫兵者不祥之器物或惡之故有道者不處君子居則貴左用兵則貴右兵者不祥之器非君子
之器不得已而用之恬淡為上勝而不美而美之者是樂殺人夫樂殺人者則不可得志於天下
矣吉事尚左凶事尚右偏將軍居左上將軍居右言以喪禮處之殺人之眾以哀悲泣之戰勝以
喪禮處之道常無名樸雖小天下莫能臣侯王若能守之萬物將自賓天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦將知止知 218-174-209-139.dynamic.hinet.net海