作者f820203 (Frank)
看板Spurs
标题[闲聊] 进阶数据RAPM简介(末): RAPM
时间Thu Oct 14 21:50:20 2021
Regularized Adjusted Plus-Minus (RAPM)
由於APM只用误差最小平方法进行估算
若有球员表现呈高度相关性
则会出现多重共线性的问题
导致不同球员估算的正负值有剧烈的浮动
有的绝对值十分巨大 有的则趋近於0
此时可以在误差最小平方合的矩阵外
额外加入λx正负值反矩阵x正负值矩阵
(可以想像成λx正负值平方和)
利用惩罚项λ让正负值不会出现绝对值异常大的情况
这种作法称为岭回归(ridge regression)
这也是RAPM以及许多新的篮球数据模型的基本方式
除了ridge regression之外
还可以加入幸运值的影响(luck-adjusted RAPM)
举例来说队友和对手罚球命中率不会受个别球员能力影响
但不同的命中率会影响球员的正负值
这个也能透过luck-adjust调整
小结
自从PER问世以来 进阶数据已随着资料科学的进步蓬勃发展。
除了引用基本数据做为公式之外
新的进阶数据更像是透过新数据不断修正的模型
有的主打动态数据 有的加入幸运值 有的则是能预测未来发展
甚至还有利用机器学习建立的模型
今天介绍的RAPM是很多先进模型会引用的
其实进阶数据背後有很多数学以及原理
若能稍加研究
就能推断出各个数据的优缺点以及适用范围
个人觉得比起纯粹比数字大小有趣多了XD
延伸阅读
RAPM介绍
https://reurl.cc/Mk4Qyp
Ridge Regression (youtube 影片)
https://reurl.cc/V5NxNy
Luck-adjusted ratings
https://reurl.cc/OkGNGy
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 175.181.176.148 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Spurs/M.1634219423.A.057.html
※ 编辑: f820203 (175.181.176.148 台湾), 10/14/2021 21:53:07
1F:推 blackdevil: 推~ 10/15 07:41
2F:推 pescado: 推,虽然门外汉只能模糊看懂个大概 10/15 11:06
3F:推 vfgce: 严格来说线性回归的回归系数才几个,根本不是overfitting. 10/15 12:35
4F:→ vfgce: 会有很大预测误差是因为共线性下符合最小平方的解不止一组 10/15 12:36
5F:→ vfgce: 没有新的资料测试前根本不知道哪个预测效果较好。 10/15 12:37
6F:→ vfgce: ridge ression的重要是尽可能选出小的回归系数。 10/15 12:39
7F:→ vfgce: 避免掉太大的回归系数造成过大的预测误差。 10/15 12:40
8F:→ f820203: 楼上专业 10/15 12:46
9F:→ f820203: 线性回归的确是想办法让MSE压到最小 10/15 12:46
10F:→ f820203: 而不是把所有值硬fit出来 10/15 12:46
11F:→ f820203: Ridge则是收敛用的 10/15 12:54
12F:→ f820203: 我再修正一下文章 10/15 12:54
13F:→ f820203: 感谢V大提醒~ 10/15 12:54
14F:推 fated: 感谢f大一直以来的用心分享诸多好文章 10/15 12:55
15F:推 cowbay5566: push 10/15 22:23
16F:推 AriesC: 感谢分享 10/16 00:33
17F:推 mindd: push 10/16 05:42
18F:推 softstar0125: 好文推 10/16 10:39
19F:推 ThisIsNotKFC: 推 10/16 15:47
※ 编辑: f820203 (175.181.157.77 台湾), 10/16/2021 17:01:50
※ 编辑: f820203 (175.181.157.77 台湾), 10/18/2021 13:37:06
※ 编辑: f820203 (175.181.157.77 台湾), 10/18/2021 13:39:32