作者CCLu (Lu)
看板MLB
標題Re: [戰況]一朗
時間Sun Jun 11 20:07:00 2006
※ 引述《morikawablue (morikawablue)》之銘言:
: ※ 引述《demintree (Mirabelli's back in tow)》之銘言:
: : http://www.beyondtheboxscore.com/story/2006/2/12/133645/296
: : A point of OBP is worth about .003 runs per game from the leadoff man (a .021
: : increase in the leadoff OBP would be about .063 runs more per game or 10 for
: : a whole season, which usually means about 1 win)
: : 由上面的圖表歸納可以猜測
: : 對於第一棒來說OBP比SLG重要三倍
: : 而對於中心打者的話
: : #3 2.141/0.933
: : #4 1.670/1.504
: : #5 2.254/1.146
: 這篇文章的論調有很大的問題。
: 首先,SLG 的範圍是 0 ~ 4,OBP 是 0 ~ 1,也就是說,如果用 pure 的數字
: 去做 regression model fitting 的話,你怎麼算 OBP 的重要性都會大過 SLG。
: 講明白點,各位覺得 OBP 增加 0.1 和 SLG 增加 0.1,何者較為簡單?答案
: 應該很明顯。
: 如果 OBP 與 SLG 加一個相同的量的難度是不同的話,那麼用這兩個數值去 fit
: 一個 model,然後用 model 的 coefficients (or say, slopes) 去評估所
: 謂的 "重要性",這會不會有一點可笑?
這篇文章不算是好文章,不過從這一點批評他可笑太嚴苛了。原作的出發點
是從 OPS 裡面給予 OBP 和 SLG 1:1 的權重,而這兩者增加 1 pt (0.001)
對於 OPS 的影響是相同的。
從這裡該文作者 Cyril Morong 做出同樣增加 1 pt 的 OBP 和 SLG 對於實
際 R/G 的影響不同的結論,認為同樣增加 1 pt 時 OBP 影響比 SLG 大。這
是大家都知道的事情,也因此有許多 stathead 或是 front office 在用數字
評估球員時給予 OBP 比 SLG 更大的權重。
他這裡其實並沒有說錯,因此也不能說他可笑。
: 第二點,這個作者用 retrosheet 的資料外加 18 個變數 (9 個 OBP + 9 個 SLG)
: 去跑一個 regression model,然後做出了那個表格當做結論,請問這是統計嗎?
當然是統計,不管好或不好,他用的是 regression analysis,這個沒有疑
問。我們可以從幾個方向去看他做的是否合理:
1. 模型設定
2. 資料
3. 結果的解釋
雖然資料都可以找的到,不過 14 年 28-30 支球隊的數據要整理還是要花
不少時間。我懶得自己跑這樣的東西,所以我沒有辦法做比較明確的批評,
只能提出一些大概的方向。
原作者應該受過統計的訓練,但是文章中報告出來的方式並不夠嚴謹。連
最基本的 R^2 都沒有,實在很難判斷這個模型到底表現如何。就我自己的
經驗來看,也許在這種數目的樣本點和解釋變數數目下會 fit 的還不錯。
他後面檢查 multicolinearity 倒是記得談 R^2,不知道這裡為什麼沒有。
對於這一類沒有理論支撐的模型我們永遠會質疑為什麼要設定這樣而不是
用其他的函數,不過線性模型由於其簡便性在討論時最容易使用,所以倒
也不必這樣去挑剔他。
我看到第一個表格時進入腦海的第一個問題是 "multicolinearity",這一
點是我判斷作者有一定的訓練的緣故,最起碼應該是修過大學部的計量之
類的課程。根據作者的談法這一部份影響不嚴重,他用的方法在這裡是合
格的。要做的更嚴謹一些當然可以,不過影響不大。
另外一個問題是資料本身的時間序列性質。這個研究裡蒐集了 panel data
卻直接把資料 pool 在一起使用,也許在 cross-section 方面問題不大,
不過我對於資料本身的 stationarity 有些疑問。在 1992 前後棒球的得分
平均起來相差了 0.6 R/G 左右,這一點 AL 和 NL 都類似。而在 1999 年
前後 NL 有個短暫的 spike,R/G 忽然從 4.60 左右跳到 5.00 又掉回來,
這個看起來比較像是 random 的結果,不太像前面那個看起來像是一個結構
性的改變。絕大部份的棒球統計研究在處理迴歸變數時都沒有把 regime
change 考慮在內,所以也不能就這一點來責怪作者。他也只是跑一個簡單
迴歸式而不是寫論文,所以不能就這一點把他給否定掉。我會希望看到更清
楚的說明,起碼談一下式子的殘差項是否滿足 white noise 的要求,應該
會更有幫助一些。
當然我們可以在變數選取上吹毛求疵,不過這會陷入 data-mining 或是
model-mining 的問題,最後不見得會比這樣一個簡單模型能夠給我們更多
資訊,倒不需要堅持下去。
: 為什麼這麼問?因為這個 regression model 的資料 base on 多年的各隊 lineup
: 資料,看起來這並沒有什麼 sample size 的問題,但我們必須思考的是:比方說
: 這裡頭做出的結論告訴你第一棒的 OBP 比較重要,第四棒的 SLG 比較重要,於
: 是你照著他的方法去安排你的棒次會得到什麼結果?
: 很簡單:新的棒次排列方式根本就不在原先這個 regression model 的規範之
: 內,這就像是我們統計東方人的身高與體重的關係,fit 出一個 regression
: model,然後找一個西方人的身高代入這個 regression model 去求這個西方人
: 的體重,各位覺得這合理嗎?
: 統計學不是這樣的!這位先生的結論犯了一個很大的錯誤,他的 model 所做出
: 的結論應該只有這樣:
: 1988 年到 2002 年的 ML "曾經做過的棒次安排" 顯示一棒的 OBP 較重要、四棒
: 的 SLG 較重要....and so on。
: 以上翻譯成白話文就是:那篇文章的 model 沒有預測能力,只是一項 "普查" 結
: 果,所以這不僅不是一個好的 model,更不能說是一個正確的結論!
這裡是解釋上的問題,而不是模型完全錯誤。這些參數是假設其他東西不
變,改變一單位的某特定解釋變數對於被解釋變數的影響。
從這裡我們不能這麼快跳到這個模型沒有預測能力的結論。它可能沒有,
不過不是這樣子來看。就以東方人和西方人身高體重的比喻來談,我們必
須要看下面兩件事情:
1. 東方人和西方人在身高與體重的關係上是否有結構性的不同。大家都
知道東方人和西方人外表看起來不一樣,但是身體結構是否不同?
2. 我們找的這個西方人的樣本點跟原來的迴歸式所用的樣本點比較是否
是一個極端值 (outlier)?
如果這兩個答案任一為是,那麼我們最好不要用原來的迴歸式做任何預測。
否則的話仍可一試。
回到前面棒球的模型來,這是一個靜態模型,跟 Markov chain 可以做出
動態模型是兩回事情。後者應該會較好,但是前者也並不是不能用。
除非我們是在選擇明星隊或是玩一個玩家人數遠少於真實世界隊數的
fantasy baseball,否則我們最後選出來的隊伍實際水準不會比聯盟水
準差太多,樣本點多半不會是太離譜的極端值,所以那些迴歸參數或多
或少仍有參考價值。
如果我們拿明星隊套入那個模型中,由於每一個棒次都超過兩聯盟平均水
準不少,在棒次後端甚至會超出原來樣本點的範圍很多,迴歸式最後的
fitted value (R/G) 準確度會很低。不過如果只是一般球隊的話,並不
太需要擔心這樣的問題。
另外在解釋估計出來的參數時,把它們彼此拿來比較會很危險,因為我們
常常忘記這些並不是刻在石板上的數字,我們只有這些數字的分配。原文
作者在這裡表現還好,他只談了少數的幾個棒次,並沒有試圖用這個模型
來決定棒次應該如何排列。
: 提到棒次,我們第一個該想到的是:每一個打者的上場打擊都在所難免的和前一位
: 打者的結果多少有一點關係 (say, context...) 。那麼我所想到的 approach 不
: 是 regression,而是一個 n-state 的 Markov Chain!至於 n 要訂多少?這我
: 就不曉得了。
用 Markov chain 會比較實際一些,可以從出局和推進一到四個壘包(共
五個 states)出發,玩到多一點就是像 Diamond Mind Baseball 那樣的
設計。
: 前一陣子那本叫 "The Book" 的書也有提到棒次的安排,他也是用 Markov Chain,
: 只是他們所用的方法是 9 個完全相同的打者在 Markov Chain 的 simulation 下
: 分別求出 outs、single、double、GIDP、HR....etc 等等打擊結果的 Expected
: Runs 然後看看這些 Expected Runs 在各個 batting order 下的表現,而
: "The Book" 最後的結論是你的 1、2、4 棒要放上最好的打者;3、5 棒要放次好的
: 打者、剩下的依水準將較好的打者擺在較前面的位置...etc。
: 基於 "The Book" 的結果是用 9 個相同的打者去做打擊結果的 Expected Runs 來
: 當做安排棒次的依據,這本書聲稱 Bill James 所謂的棒次不重要論是對的,但
: 在最佳化的結果下最多可以擠出 50 分來,你相信嗎?
: 事實上,"The Book" 仍然犯了同樣錯誤的結論,這是因為如果我們照著他的建議
: 去安排棒次的話,那就已經改變了整個 lineup 的 context,這時候,這些打擊結
: 果的 expected runs 還會像他們書上寫的那樣嗎?我不認為會。
我在看到 The Book 說把 1、2、4 放最好的打者這個結論時我也有類似
的疑問,不過我沒有時間看那本書,所以不敢下結論。
這個問題似乎太明顯了,不太可能被忽略掉的。
由於沒有看過那本書,有些東西無法討論,不過 50 分的差距怎麼樣也
不能支持 Bill James 的棒次不重要的說法。這是大概 5 場勝場,對於
一個球季來講是很大的差距。如果這真的是那本書裡面的結論,那麼他
們互相矛盾了。
: 我認為正確的做法是:如果我們找得到一個合理的 n-state Markov Chain,然後我
: 們再利用 18 個不同的變數 (9 個 OBP 與 9 個 SLG) 去找出 9! = 362880 種的
: 棒次安排方式下究竟何種在 "合理的" simulation 下會得到最多的分數,這才
: 會是我們討論棒次安排問題應有的 approach,BP 的 James Click 所用的方法就比
: 較類似是這樣,他的結論我提過了:OBP descending order 比 OBP ascending order
: 一季也不過多出 20 分,然後我們又得到一個無頭公案:以 VORP 的結論,這 20 分
: 代表兩勝;以 Win Expectancy 的結論來看,這 20 分搞不好有可能代表 20 勝。
: Sabermetric 的研究裡搞笑的文章是很多的,必須提醒的是:數字不會騙人,騙人的
: 是拿對自己有利或錯誤的數字做出結論的人;被騙的則是不懂數字的人。
: 然而,BP 的 Dayn Perry 在他的 Winners 一書中提到,利用 1871 到 2003 年各隊
: 的 AVG、OBP、SLG 與 IsoP 去計算與球隊總得分的 CR (相關係數),得到的結論是
: AVG:.828
: OBP:.866
: SLG:.890
: ISO:.762
果有人有書在手,這一部份數據出自 Winners P.13。
這是我對於 Moneyball 這本書有意見的原因之一。Michael Lewis 及許多讀者
把 OBP 無限上綱了,這個數據比 AVG 重要,但市場上重視的是 AVG 而不是
OBP,所以有些球員會被 over/under-priced,而這給了 Billy Beane 套利的
空間。但是這並不代表 SLG 就不重要。
樣本點的選取很重要,我自己以前跑過一些球季的經驗是 OBP 的確在某些年
份重要性會高過 SLG,這一點跟 Dayn Perry 的結論不同。不管哪一個比較高,
SLG 高的球員通常在市場上也都得到充分的注意,他們沒有人會被 under-
priced,所以這不是 Moneyball 哲學下有套利空間的對象。但是無論如何不
能說 SLG 不重要。
我最近在寫 blog 時就批評 Melky Cabrera 的 power 太差,即使他有不錯的
OBP 也不夠,那不足以讓他在 corner OF 位置生存。那個批評背後的邏輯就是
從這裡來的。
: 而 Clay Davenport 在他的 Create EqA 過程中也提到與 Perry 相同的結果,甚
: 至,Davenport 在他的 raw EqA (OPS 的修正量) 式子裡隱藏了一個訊息:raw EqA
: 的分子其實是一種 "wild runs" 的估計,而 Hit、BB 與 Extra base 的價值相比
: 則是 2 : 1.5 : 1。
: Billy Beane 不斷的強調 OBP 的重要性是絕對沒錯的,但他的 moneyball team
: 在失去 Giambi 與 Tejada 兩位較顯著的 sluggers 之後,他們的 2nd-half rally
: 的效果似乎一年比一年降低,這如果只說是巧合,恐怕站不住腳吧?
其實不至於。失去 Tejada 之後他們次年得分並沒有下降,2004 成績比 2003
差主要是差在投手,不是打擊。Jason Giambi 2001 年的產量是難以取代的,
他們也的確沒有在 2002 年得到比 2001 年更多的分數,但是他們事實上贏得
場次更多。Giambi 的重要性同時存在於 OBP 和 SLG 兩部份,用他來作推論不
太容易。Tejada 的重要性不在 OBP,是個比較好的對象,不過從有他和沒有他
兩年來比較其實並不能做出什麼結論來。
: 總之:當壘上無人的時候,BB 與 Hit 的價值是相同的,但壘上有人時,一支 Hit
: 的效果是每一個角度都比 BB 要好的,這應該是直觀到不能再直觀的事實。
: 瞭解統計學家們的想法是好事,但相信這些作者的結論,則必須要有選擇性。
--
==============================
My Yankees blog:
The Pinstriped Morningside Heights
http://cclu.blogspot.com
這是一個主要由中文寫作,但是引用英文網路文章的blog。內容包括:
Yankees、Baseball Business以及Sabermetrics。
※ 編輯: CCLu 來自: 61.230.104.215 (06/11 22:55)
1F:推 greengreen42:但是Melky的守備可能足以讓他站洋基的CF 06/11 23:13
2F:→ greengreen42:以這種打擊站MI就是可以接受了 06/11 23:14
3F:推 CCLu:Melky 不能守 CF 吧 06/11 23:14
4F:推 higo15:好像在看課本......頭好暈....... 06/11 23:43
5F:→ Fontainerei:看球吧!數據 so what? 06/12 03:45
6F:推 Epsilon:樓上這種心態實在很可悲 06/12 08:56
7F:推 morikawablue:我覺得很感謝 CC 的意見,畢竟我也只是一個 BBS 的使 06/12 10:18
8F:→ morikawablue:用者而已,有時候要多一點想法才能讓 PO 出來的意見 06/12 10:19
9F:→ morikawablue:更完備。 06/12 10:20
10F:推 morikawablue:The Book 的部份應該是我的語病,只是他們一直強調 06/12 10:24
11F:→ morikawablue:在玩 "小分數" 而已。 06/12 10:25
12F:推 VGA:五樓真不專業 06/12 11:51
13F:→ zxela:臨場表現跟運氣比數據重要 滿壘時會全壘打或雙殺三殺誰知道 06/12 17:28
14F:→ morikawablue:樓上的,你繼續做黑洞人類吧... 06/13 09:47
15F:推 AthrunZala:我好像在上統計 真是上了一課 XD 06/15 14:47