作者raiderho (冷顏冷雨)
看板Statistics
標題Re: [問題] F檢定自由度問題與機器學習迴歸預測F檢定
時間Thu Aug 18 18:59:27 2022
在傳統迴歸模型且預測值是連續變數的架構下:
1. 各係數顯著異於0 (不管是個別檢定或聯合檢定) 和模型的預測力是兩回事.
可能會有這樣的情況:
採用的模型是正確的,但因為內生性問題,
導致估計出來的係數有偏誤,但模型整體的預測表現很好.
在評估政策的情境下, 我們會討論係數的偏誤問題;
而只在乎預測正確性的情境下 (如商業情境, 大多數機器學習的情境),
可以用樣本內預測和樣本外預測來評估預測的好壞.
2. 可能有這樣的情況:
一個模型可以是正確的,但資料蒐集時, 隨機的誤差變異很大
那麼 R^2 可能會不大. (模型正確, 但是 R^2 不大, 這是可能的!)
在社會科學的資料很常有這樣的情況,
因此在社會科學研究的脈絡下, 通常不會追求模型具備高 R^2;
但在實驗室情境會控制誤差的變異, 可以追求高的 R^2.
3. 大部分情況下, 模型就是完全真實的模型的可能性不大,
我們不知道真實的模型是什麼, 因此我們只會想辦法找出比較擬合數據的模型,
(All models are wrong but some are useful.)
所謂的統計檢定可以理解成: 在給定條件下, 比較 "兩個模型" 好壞的統計程序.
因此, 說單一模型的好壞意義不大,
例如, 一個模型可能已經擬合得不錯了, 但補上某個平方項或交錯項還會更好,
這樣可以執行 lack-of-fit test, 參考:
https://www.statology.org/lack-of-fit-test-in-r/
(這是一種樣本內預測的評估.)
又, 一個更複雜的模型當然會比簡單的模型有更高的 r^2,
但是消除一些項, 模型的擬合程度可能差別不大, 統計檢定可能會支持簡單的模型.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.25.129 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1660820371.A.4EA.html
1F:推 shy7shawn: 真的是十分感謝您還特別回一篇文我會在研究一下的感謝 08/19 00:58