作者saltlake (SaltLake)
看板Statistics
標題[問題] R2 和線性估計
時間Sat May 5 01:02:51 2018
對資料數據做線性回歸是很常見的應用: y = a+b*x
有一組數據 (x,y) 之後,假設這數據成上述的線性關係,
我們可以計算其決定係數 R^2 而得到某個數值。那麼怎樣
的數值才能合理判斷數據可以用線性關係描述?
R^2 = 1 當然沒問題,R^2 = 0 當然不行,R^2 = ? 才合理?
還是說我們一定得測多組 (x,y) 數據,然後根據這多組數
據去估算 b 的 p-值(例如小於 0.05啥的),也就是對 b 以
b = 0 做假設檢定,或者看 b 的信心區間才能判斷?
另外,第二種方法要取得多組數據而比較昂貴,而第一種方法
只要取一組數據就好,可以用第一種方法的 R^2 稍微猜一下值
不值得用第二種方法做更正式的統計假設檢定嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.62.4
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1525453373.A.C59.html
1F:→ LiamIssac: 只有一組(x,y)怎麼回歸? 05/05 05:39
2F:→ yhliu: 要考慮一堆雙變量數據是否能用直線迴歸描述, 只看 R^2 是不 05/05 07:05
3F:→ yhliu: 名夠的, 看 b 的顯著性更不行. 至少應看看它們的相關散佈圖 05/05 07:07
4F:→ yhliu: 看資料點是否大致呈直線關係. 05/05 07:08
肉眼視圖對於辨識大的差異挺好用,比方看數據點及是否有明顯的非線性波動。
但是如果沒有明顯非線性波動,而是兩坨稍微拉長的數據雲,這時候無法用肉眼
區分哪一坨雲比較像線性。
用前述的 R^2 和回歸直線斜率的信心區間可以有量化的估計,但這也只能從數據
看出這兩坨的相對差異,但是這差異的大小有否意義是個問題,這兩坨數據究竟
夠不夠像線性模型又是另個問題。如先前問的,怎樣的閾值適合用判斷是否為線性
模型, R^2 = 0.9, 0.8, 0.7, ...?
※ 編輯: saltlake (114.44.247.134), 05/08/2018 05:54:45