作者raiderho (冷颜冷雨)
看板Statistics
标题Re: [问题] F检定自由度问题与机器学习回归预测F检定
时间Thu Aug 18 18:59:27 2022
在传统回归模型且预测值是连续变数的架构下:
1. 各系数显着异於0 (不管是个别检定或联合检定) 和模型的预测力是两回事.
可能会有这样的情况:
采用的模型是正确的,但因为内生性问题,
导致估计出来的系数有偏误,但模型整体的预测表现很好.
在评估政策的情境下, 我们会讨论系数的偏误问题;
而只在乎预测正确性的情境下 (如商业情境, 大多数机器学习的情境),
可以用样本内预测和样本外预测来评估预测的好坏.
2. 可能有这样的情况:
一个模型可以是正确的,但资料蒐集时, 随机的误差变异很大
那麽 R^2 可能会不大. (模型正确, 但是 R^2 不大, 这是可能的!)
在社会科学的资料很常有这样的情况,
因此在社会科学研究的脉络下, 通常不会追求模型具备高 R^2;
但在实验室情境会控制误差的变异, 可以追求高的 R^2.
3. 大部分情况下, 模型就是完全真实的模型的可能性不大,
我们不知道真实的模型是什麽, 因此我们只会想办法找出比较拟合数据的模型,
(All models are wrong but some are useful.)
所谓的统计检定可以理解成: 在给定条件下, 比较 "两个模型" 好坏的统计程序.
因此, 说单一模型的好坏意义不大,
例如, 一个模型可能已经拟合得不错了, 但补上某个平方项或交错项还会更好,
这样可以执行 lack-of-fit test, 参考:
https://www.statology.org/lack-of-fit-test-in-r/
(这是一种样本内预测的评估.)
又, 一个更复杂的模型当然会比简单的模型有更高的 r^2,
但是消除一些项, 模型的拟合程度可能差别不大, 统计检定可能会支持简单的模型.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.24.25.129 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1660820371.A.4EA.html
1F:推 shy7shawn: 真的是十分感谢您还特别回一篇文我会在研究一下的感谢 08/19 00:58