作者honichi (honichi)
看板Statistics
标题[问题] 线性回归预测模型的变数选择
时间Fri Sep 24 09:55:18 2021
统计专业板友好,老妹统计外行一个,工作多年基本上都还给教授了,
最近负责带的暑期实习生专案遇到了一个问题想请教
<背景>
研究主题是「市场变数对公司产品价格(单位价格)的影响」
(敝公司产品类似记忆体产业那种3-5家寡占性竞争)
事实上这个主题在2015年曾有前手研究过,当时以2010-2014资料分析,
得出最强三大相关性的因子为
1.供需 2.市占率总变动值(前三大取绝对值) 3. 下游客户获利率
然而此次以2015-2021资料研究,整体变数的相关性几乎都接近0或低度相关
勉强找出前三大相关性因子为
1.季节性 2.市占率总变动值 3.竞争对手获利率
光是供需这一点完全变成没有相关性,就快被老板问到疯了~不过我已经找到解释的原因
(市场供需的结构改变和目前使用的估算资料可能和我们理解的真实世界不同)
<问题>
由於需要预测2022价格走势,我让实习生找出一个比较合适的模型 (多变数线性回归)
我直觉认为应该1.季节性 2.市占率总变动值 3.竞争对手获利率的模型会是最合适的
R2=0.77
各自P-value为0.0/0.69/0.0
没想到实习生却得到1.季节性 2.供需 3.竞争对手获利率的组合会更合适
R2=0.82
各自P-value为0.0/0.04/0.0
原本跟老板说,供需已经变不重要变数了,结果预测还使用了供需这个变数
完全打脸~
我的问题可能问得不够专业,盼板友可以分享可能的原因或不吝指正
谢谢大家~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 165.225.116.174 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1632448520.A.0DC.html
1F:→ locka: 所以您是要问……什麽? 09/24 09:59
2F:→ locka: 原因可能取决於挑选变数的过程,例如变数间有交互作用或共 09/24 10:04
3F:→ locka: 线性之类的,您可能要补充一下变数筛选逻辑比较好判断,另 09/24 10:04
4F:→ locka: 外还要检查变数有没有符合回归的假设 09/24 10:04
5F:推 AeiCheng: 先确定回归假设,再考虑後续的解释,不然只是另一种形 09/24 15:20
6F:→ AeiCheng: 式的看图说故事 09/24 15:20
7F:推 imaltar: 试试看用stepwise挑挑看? 09/24 16:43
8F:推 ksherry: 做预测的话, 要考虑样本外预测而不是样本内预测 09/24 20:55
9F:推 evilove: N 有多少? 09/25 01:01
10F:→ diabolica: == 09/27 22:46