作者morikawablue (morikawablue)
看板MLB
标题Re: [战况]一朗
时间Sun Jun 11 03:14:17 2006
※ 引述《demintree (Mirabelli's back in tow)》之铭言:
: ※ 引述《jacky77437 (遗憾~)》之铭言:
: : 一棒 上垒率>速度>长打率
: : 中心打者 长打率>上垒率>速度
: http://www.beyondtheboxscore.com/story/2006/2/12/133645/296
: A point of OBP is worth about .003 runs per game from the leadoff man (a .021
: increase in the leadoff OBP would be about .063 runs more per game or 10 for
: a whole season, which usually means about 1 win)
: 由上面的图表归纳可以猜测
: 对於第一棒来说OBP比SLG重要三倍
: 而对於中心打者的话
: #3 2.141/0.933
: #4 1.670/1.504
: #5 2.254/1.146
这篇文章的论调有很大的问题。
首先,SLG 的范围是 0 ~ 4,OBP 是 0 ~ 1,也就是说,如果用 pure 的数字
去做 regression model fitting 的话,你怎麽算 OBP 的重要性都会大过 SLG。
讲明白点,各位觉得 OBP 增加 0.1 和 SLG 增加 0.1,何者较为简单?答案
应该很明显。
如果 OBP 与 SLG 加一个相同的量的难度是不同的话,那麽用这两个数值去 fit
一个 model,然後用 model 的 coefficients (or say, slopes) 去评估所
谓的 "重要性",这会不会有一点可笑?
第二点,这个作者用 retrosheet 的资料外加 18 个变数 (9 个 OBP + 9 个 SLG)
去跑一个 regression model,然後做出了那个表格当做结论,请问这是统计吗?
为什麽这麽问?因为这个 regression model 的资料 base on 多年的各队 lineup
资料,看起来这并没有什麽 sample size 的问题,但我们必须思考的是:比方说
这里头做出的结论告诉你第一棒的 OBP 比较重要,第四棒的 SLG 比较重要,於
是你照着他的方法去安排你的棒次会得到什麽结果?
很简单:新的棒次排列方式根本就不在原先这个 regression model 的规范之
内,这就像是我们统计东方人的身高与体重的关系,fit 出一个 regression
model,然後找一个西方人的身高代入这个 regression model 去求这个西方人
的体重,各位觉得这合理吗?
统计学不是这样的!这位先生的结论犯了一个很大的错误,他的 model 所做出
的结论应该只有这样:
1988 年到 2002 年的 ML "曾经做过的棒次安排" 显示一棒的 OBP 较重要、四棒
的 SLG 较重要....and so on。
以上翻译成白话文就是:那篇文章的 model 没有预测能力,只是一项 "普查" 结
果,所以这不仅不是一个好的 model,更不能说是一个正确的结论!
提到棒次,我们第一个该想到的是:每一个打者的上场打击都在所难免的和前一位
打者的结果多少有一点关系 (say, context...) 。那麽我所想到的 approach 不
是 regression,而是一个 n-state 的 Markov Chain!至於 n 要订多少?这我
就不晓得了。
前一阵子那本叫 "The Book" 的书也有提到棒次的安排,他也是用 Markov Chain,
只是他们所用的方法是 9 个完全相同的打者在 Markov Chain 的 simulation 下
分别求出 outs、single、double、GIDP、HR....etc 等等打击结果的 Expected
Runs 然後看看这些 Expected Runs 在各个 batting order 下的表现,而
"The Book" 最後的结论是你的 1、2、4 棒要放上最好的打者;3、5 棒要放次好的
打者、剩下的依水准将较好的打者摆在较前面的位置...etc。
基於 "The Book" 的结果是用 9 个相同的打者去做打击结果的 Expected Runs 来
当做安排棒次的依据,这本书声称 Bill James 所谓的棒次不重要论是对的,但
在最佳化的结果下最多可以挤出 50 分来,你相信吗?
事实上,"The Book" 仍然犯了同样错误的结论,这是因为如果我们照着他的建议
去安排棒次的话,那就已经改变了整个 lineup 的 context,这时候,这些打击结
果的 expected runs 还会像他们书上写的那样吗?我不认为会。
我认为正确的做法是:如果我们找得到一个合理的 n-state Markov Chain,然後我
们再利用 18 个不同的变数 (9 个 OBP 与 9 个 SLG) 去找出 9! = 362880 种的
棒次安排方式下究竟何种在 "合理的" simulation 下会得到最多的分数,这才
会是我们讨论棒次安排问题应有的 approach,BP 的 James Click 所用的方法就比
较类似是这样,他的结论我提过了:OBP descending order 比 OBP ascending order
一季也不过多出 20 分,然後我们又得到一个无头公案:以 VORP 的结论,这 20 分
代表两胜;以 Win Expectancy 的结论来看,这 20 分搞不好有可能代表 20 胜。
Sabermetric 的研究里搞笑的文章是很多的,必须提醒的是:数字不会骗人,骗人的
是拿对自己有利或错误的数字做出结论的人;被骗的则是不懂数字的人。
然而,BP 的 Dayn Perry 在他的 Winners 一书中提到,利用 1871 到 2003 年各队
的 AVG、OBP、SLG 与 IsoP 去计算与球队总得分的 CR (相关系数),得到的结论是
AVG:.828
OBP:.866
SLG:.890
ISO:.762
而 Clay Davenport 在他的 Create EqA 过程中也提到与 Perry 相同的结果,甚
至,Davenport 在他的 raw EqA (OPS 的修正量) 式子里隐藏了一个讯息:raw EqA
的分子其实是一种 "wild runs" 的估计,而 Hit、BB 与 Extra base 的价值相比
则是 2 : 1.5 : 1。
Billy Beane 不断的强调 OBP 的重要性是绝对没错的,但他的 moneyball team
在失去 Giambi 与 Tejada 两位较显着的 sluggers 之後,他们的 2nd-half rally
的效果似乎一年比一年降低,这如果只说是巧合,恐怕站不住脚吧?
总之:当垒上无人的时候,BB 与 Hit 的价值是相同的,但垒上有人时,一支 Hit
的效果是每一个角度都比 BB 要好的,这应该是直观到不能再直观的事实。
了解统计学家们的想法是好事,但相信这些作者的结论,则必须要有选择性。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.104.233.251
1F:推 jshuang:之前有篇 closer 该不该在九局上的研究也有您提到的问题 06/11 03:23
2F:→ nedbob:打序的重要性 可能要MLB全部的队伍 把1-9棒 做排列 06/11 03:30
3F:→ nedbob:然後去比较看看是不是得到的分数差不多可以忽略 06/11 03:30
4F:→ nedbob:又如果有差异 那个队伍的打者是什麽类型的组合 06/11 03:31
5F:→ nedbob:又如果分数相差不大 是不是因为9位打者能力差不多 06/11 03:32
6F:→ nedbob:这样才有办法 去探讨打序是不是很重要 06/11 03:32
7F:→ nedbob:9位打者 N个队伍 打几季共几场比赛为M 9!*N*M 06/11 03:34
8F:→ nedbob:队伍打者组合类型又要不同 要计算 9!*M*N 06/11 03:37
9F:→ nedbob:这样才能够真正去探讨打序的问题 06/11 03:38
10F:→ nedbob:如果要更精细 M跟N就要够大....... 06/11 03:51
※ 编辑: morikawablue 来自: 59.104.233.251 (06/11 10:17)
11F:→ morikawablue:又打错...wild runs 指的是 raw EqA 的分子... 06/11 10:19