作者azzc1031 (azzc1031)
看板Statistics
標題[問題] 計量跑複迴歸的問題
時間Sat Jan 3 16:59:37 2015
這次計量的作業,是要用SAS軟體跑複迴歸
由於主題不限,我找了比較生活化的題材
我輸入愛文芒果的價格(Y),氣溫(X1),雨量(X2),日照時數(X3)
一跑,發現調整後R-square才0.12........囧
後來改成觀光收入(Y),歷年來台人數(X1)
其他變數還沒想到,總之先跑跑看
一跑,調整後R-square高達0.98
問了教授,他說一個好的迴歸,應落在0.7-0.8之間
所以太高也不行....
我後來發現,找資料,跑迴歸,分析變數間關係還算容易
反而是一開始如何訂題材最難
所以想問大家有什麼好題材呢? 感激不盡!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.245.180
※ 文章網址: http://webptt.com/m.aspx?n=bbs/Statistics/M.1420275580.A.298.html
1F:→ bcs: R-adj那麼高,檢查一下時間序列的spurious regression 01/03 20:34
2F:→ yhliu: R^2 高不是不行. 問題的關鍵是為什麼會有那麼高的 R^2, 所 01/05 08:58
3F:→ yhliu: 考慮的模型是否具有 "解釋" 的效果, 或 "預測" 的功能. 01/05 08:59
4F:→ yhliu: 當然, 在使用時間數列時, 各時間數列的共同趨勢造成的虛假 01/05 09:00
5F:→ yhliu: 相關現象也是要考慮的. 01/05 09:00
6F:→ yhliu: 如果模型是真的有意義的, 研究者應巴不得 R^2 在 0.99 以上 01/05 09:02
7F:→ yhliu: 那代表反應變數的變異幾乎完全可被解釋, 代表不可測的誤差 01/05 09:03
8F:→ yhliu: 很小. 當然事實上這種情形是不可得的. 01/05 09:04
9F:→ yhliu: 如本例, 觀光收入 與 來台人數, 本就是一種現象的兩種量度, 01/05 09:05
10F:→ yhliu: 有直接關係, 有高相關本是必然. 這樣的 "迴歸模型" 能說明 01/05 09:06
11F:→ yhliu: 什麼現象? 能用於預湔什麼? 01/05 09:07
12F:→ yhliu: 至於 R^2 偏低的模型, 表示根本未找到影響反應變數的重要 01/05 09:08
13F:→ yhliu: 解釋變數, 這樣的模型當然是缺乏說服力的. 01/05 09:09
14F:推 shaneyeh: Overfit 01/06 13:07