作者Debugger (Win Shares 痴汉)
看板Sabermetrics
标题Bill James 最爱的玩具
时间Thu Feb 1 09:51:48 2007
张泰山未来生涯能不能突破一千打点?潘威伦有没有机会突破陈义信的 141 胜台湾
职棒纪录?天知道。
纪录一向是职业运动的话题重点之一,而预测生涯成绩又是能够长时间吸引球迷注意
的重要话题。既然说是预测,自然跟考虑的球员过去成绩有所关联。例如在 2005 以
及 2006 都拿下中职最有价值球员的林恩宇,倘若一直待在中职多打几年,相信必可
累积出质量皆优的成绩。不过他去了日本,虽然职业生涯继续,但至少他的中职成绩
就暂时停摆。(当然能赴美日职棒打球是另一种成就,这边我们只是单纯考虑台湾职
棒纪录的累积。)
棒球统计学家 Bill James 发展出一套「玩具」(Bill James' Favorite Toy),利
用简单的计算公式,来推估各球员在生涯结束後能达成某项累积数据里程碑的机会有
多少,以及在职业生涯结束之後比较可能累积出怎样的投打成绩。由於出发点是球迷
话题,推估方法力求简单易懂,也因此必须要牺牲掉不少棒球统计理论以及准确度。
这套公式考虑了球员的目前累积成绩,过去近几年的成绩,以及球员现在年龄,来决
定说这个球员生涯结束後能达成某项累积数据里程碑的机会有多少。
要说明的一点是,这套预测公式相当简化,只适用於每个球季结束之後,若想在球季
中随时使用会有问题。而算出来的结果也没有考虑到个别球员的独特性,完全是只看
数字判断。比方说,如果我们想拿潘威伦来算,实际上考虑的并不是潘威伦这个人,
而只是某一个球员,而这个球员的成绩跟潘威伦相彷。至於这个人是左投还是右投,
身体有没有严重病痛史,待的球队用人策略如何等等层面,都因为使用相当简化的预
测模型而被忽略掉了。另外,这套公式用在已经在职棒打滚多年的球员比较可靠,但
若用在像是去年才进入中职的陈金锋身上,能参考的资料太少,误差就很可能很大了
。
接下来我们用一个例子来解释算法,也同时给出公式。假设说我们想预估张泰山的生
涯安打总数,以及求得张泰山有多少机会达成 2000 支安打。我们需要算出:
尚需成绩:计算选手的生涯目前累积成绩还差想求的里程碑有多远。张泰山职业生涯
已经累积了 1129 支安打,还差 871 支安打就达到 2000。
近年表现水准:拿过去三年的成绩当成球员近期表现水准,时间点近的年份参考性较
高,计算时就给予较高的比重。在大部分情况下,近年表现水准定义为(去年成绩*3
+ 前年成绩*2 + 大前年成绩)除以六,所以张泰山在安打这项数据的近年表现水准
就是 (130*3+106*2+127)/6 = 121.5。如果这个计算结果低於去年成绩的 80%,就用
去年成绩的 80% 。这个调整是为了在计算只进入职棒不久,或是之前有因伤使得出
赛大幅减少的球员,让这些人算出来的近年表现水准有更高的准确度。
剩余出赛年数:原本计算大联盟球员时,通常用的定义是(42 - 前一年年龄)/2。
考虑到台湾职棒球员离开球场的年龄偏低,投手又比打者更明显,因此我们在计算打
者时,用的定义改为(40 - 前一年年龄)/2,而计算投手时则使用(38 - 前一年
年龄)/2。除以二是因为我们是在预测的是某人的成绩,而不是基於「假设未来会
一直照前三年水准打下去」之下来预测成绩。球员会受伤,会被教练重用或冷冻,会
因各种原因没打几年就退休。在没有针对各球员特性调整预测的情况下,这些定义也
只是试图描述一个较为笼统大环境趋势。以上定义遇到某些例外会加以调整,任何现
役球员不管几岁都至少订成剩余出赛年数至少为 0.5。如果前一年有达到某些排行榜
上榜标准的打者每场 3.1 打席以及投手每场投一局,剩余出赛年数就额外再增加 0.5
。如果前一年的 OPS (长打率加上垒率)有高过联盟平均,或是投手的自责分率有
低於联盟平均,也再额外增加 0.5 年。也就是说,不管球员现在几岁,只要去年的
出场机会够多,而且表现的比联盟平均还要好,就会当成至少还会再出赛 1.5 年。
张泰山去年为 29 岁(均以每年六月三十日来计算球员年龄,只取整数部分),因此
张的剩余出赛年数订为 (40-31)/2 = 4.5。(原本公式对老球员的估计年数算法不同
,我们这边自行选择了更容易求得的数据当成标准采用。公式虽异,精神却相似,都
是考量老球员前一年表现的质以及出赛的量。)
预测记录增加量:剩余出赛年数乘以近年表现水准。因此,张泰山的安打数预测还会
再增加 121.5*4.5 = 546.75 支。四舍五入之後,也就是预测张泰山在职业生涯结束
之後,会有 1129 + 547 = 1676 支安打。
预测达成机率:上面的预测记录基本上是当成有大约 50% 的机会可以达成的纪录。
如果想计算有多少机会可以累积到某个里程碑,达成机会定义为
预测记录增加量/(里程碑 - 目前累积纪录)- 0.5
因此,张泰山有多少机会达成 2000 支安打呢?答案是 546.75/(2000-1129) - 0.5
= 12.77%。虽然不高,但还算是蛮可以期待的。基於现实考量,所有还没有实际达成
的纪录都有可能因故不可能达成,例如球员突然选择退休,所以算出来的机会比率另
外加了限制。上限订为 0.97 的(尚需成绩/近年表现水准)次方。尚需成绩愈少,
或者近年表现水准愈高,就会让达成机会的上限愈接近一。如果达成机率照公式算出
来小於零,则忽略不计。
再来算一个投手的例子。潘威伦在中职四年一共拿到了 51 胜,他能不能在多年之後
突破陈义信高悬已久的台湾职棒胜投王纪录 141 胜呢?既然说是突破,我们就当作
是要达成 142 胜这个里程碑吧,所以潘威伦还差 142-51 = 91 胜就超越陈义信的胜
投数。潘前三年分别拿到 14、12、12 场胜投,近年表现水准是 (14*3+12*2+12)/6
= 13。潘威伦生日是 1982/3/5,去年年中 24 岁,剩余出赛年数为 (38-24)/2 = 7
。所以我们估计潘威伦在接下来的职业生涯,还会再增加 13*7 = 91 胜,也就是一
共 51 + 91 = 142 胜,达成 142 胜里程碑的机会是 91/(142 - 51) - 0.5 = 50.00%
,正好一半一半。
由於专栏的篇幅因素,也为了保留一些神秘感,这边并不列出计算结果,我们将在即
将推出的电子书 TWBaseball.info Handbook 2007 中包含这个主题,详细内容就要请
各位稍安勿躁,等待 TWBaseball.info Handbook 2007 的推出罗!
书中本单元将包含三大部分。第一部份计算中职现役球员的预测生涯累积纪录,打者
列出生涯打席数最多的前四十位,投手列出生涯投球局数最多的前二十位。第二部份
中考虑一些里程碑,以及少数球员有多少机会达成这些里程碑,而最後一部份则是预
测当现在中职这批球员都退休之後,生涯累积纪录的排行榜可能会变成怎样。三个部
份都只考虑本土球员。当然,由於未来仍会有新血加入职棒,而我们只考虑了已累积
一些职业成绩的球员,第三部分很可能偏离未来发展最多,这边只是当成纯趣味来参
考。毕竟,订出这套系统的 Bill James 讲得明白,这只是个「玩具」嘛!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.130.152.1
1F:推 jackcselab:为什麽2000支变成1500支? 02/02 22:01
※ 编辑: Debugger 来自: 220.130.152.1 (02/03 13:04)
2F:推 Debugger:thx for debugging Orz 02/03 13:04