作者saltlake (SaltLake)
看板Statistics
标题[问题] R2 和线性估计
时间Sat May 5 01:02:51 2018
对资料数据做线性回归是很常见的应用: y = a+b*x
有一组数据 (x,y) 之後,假设这数据成上述的线性关系,
我们可以计算其决定系数 R^2 而得到某个数值。那麽怎样
的数值才能合理判断数据可以用线性关系描述?
R^2 = 1 当然没问题,R^2 = 0 当然不行,R^2 = ? 才合理?
还是说我们一定得测多组 (x,y) 数据,然後根据这多组数
据去估算 b 的 p-值(例如小於 0.05啥的),也就是对 b 以
b = 0 做假设检定,或者看 b 的信心区间才能判断?
另外,第二种方法要取得多组数据而比较昂贵,而第一种方法
只要取一组数据就好,可以用第一种方法的 R^2 稍微猜一下值
不值得用第二种方法做更正式的统计假设检定吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.62.4
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1525453373.A.C59.html
1F:→ LiamIssac: 只有一组(x,y)怎麽回归? 05/05 05:39
2F:→ yhliu: 要考虑一堆双变量数据是否能用直线回归描述, 只看 R^2 是不 05/05 07:05
3F:→ yhliu: 名够的, 看 b 的显着性更不行. 至少应看看它们的相关散布图 05/05 07:07
4F:→ yhliu: 看资料点是否大致呈直线关系. 05/05 07:08
肉眼视图对於辨识大的差异挺好用,比方看数据点及是否有明显的非线性波动。
但是如果没有明显非线性波动,而是两坨稍微拉长的数据云,这时候无法用肉眼
区分哪一坨云比较像线性。
用前述的 R^2 和回归直线斜率的信心区间可以有量化的估计,但这也只能从数据
看出这两坨的相对差异,但是这差异的大小有否意义是个问题,这两坨数据究竟
够不够像线性模型又是另个问题。如先前问的,怎样的阈值适合用判断是否为线性
模型, R^2 = 0.9, 0.8, 0.7, ...?
※ 编辑: saltlake (114.44.247.134), 05/08/2018 05:54:45