作者Parhelia (Macroprocessing)
看板WOW
標題[閒聊] 閱讀WMO排行榜:A Statistical Approach
時間Mon Apr 25 14:43:47 2011
關於 pve dps 的平衡與否,大家心裡都有一把尺或者參考的標準,一個常見
的參考數據就是 WMO/WOL 的排行榜,上榜數量的高低和各職業最前列的排名
常常是一個被拿來論戰的點,但是這些排行榜是不是真的可以這樣看呢?
以下的資料(模擬的WMO DPS紀錄)是由Mathwave公司的EasyFit來產生的,
之後比較簡單的資料處理是用excel進行的,我們假設同職業的dps分布
都是 gaussian (要不然要用啥 XD)
我會盡量用高中等級的統計來解釋,起碼一些怪名詞還是別出現好,這裡不是統計
學版 XD
1. 職業本身變異性對排行榜的影響
請看 Excel 檔案
http://www.megaupload.com/?d=31RW0DNV
假設職業A和職業B兩個職業各有某王的1000筆資料上傳,假如大家裝備都差不多
職業A和職業B的平均dps都是30000,但職業A的傷害變數很大,標準差會到6000,
職業B相對穩定,他們的標準差只有3000
這兩個職業模擬出來的分布大約像這樣
http://www.glog.cc/1_pic/0E6EE26A09063.jpg
事實上你能看到,職業A因為本身變異大,出現的最大最小極值自然也特別大
假如你取最前面的幾名來看(就是現在WMO/WOL那樣),大概會做出A職比B職威的結論
Class A Class B
Top 1% (top 10) 46099.78588 38273.48347
Top 5% (top 50) 42276.38634 36296.03269
Top 10%(top 100) 40384.66923 35376.46425
Top 25%(top 250) 37531.52244 33978.94519
Top 50%(top 500) 34731.49391 32552.72866
AVG 29856.55372 30166.04668
但是這兩個職業的平均期望值是一樣的,考慮其分布方式相同,同條件下職A打贏
職B或倒過來,兩者的機率會是一樣的,前者的結論跟這個就不一致了。
換句話說,職業本身的變異性會讓人在看極值的時候被帶到錯誤的結論,甚至
有可能期望值低的因為變異性較大,造成出現的極值反而比期望值高的大的狀況,
這樣子來判斷的結論就出現了偏差。
2. 職業本身人口數對排行榜的影響
請看Excel檔案
http://www.megaupload.com/?d=HNNPIPHB
假設職業A和職業B他們威力可說相當,打某王平均皆為30000 dps,標準差皆為
3000,但是職業B因為套裝造型太醜沒人要玩,所以職業A有3000筆資料上傳,
職業B只有1000筆
這兩個職業的模擬分佈大概像這樣
http://www.glog.cc/1_pic/0E6EE2DF5FF4B.jpg
其照比例看的平均大概像這樣
Class A Class B
Top 1% 38253.66189 38146.13278
Top 5% 36244.61259 36199.14679
Top 10% 35299.60868 35212.99643
Top 25% 33818.93452 33780.08532
Top 50% 32325.56346 32346.23414
Average 29893.54547 29977.45931
都滿一致的,但是假如依照WMO/WOL的排行榜,你會看到這個
Class A Class B
Top 10 39427.10323 38146.13278
Top 25 38460.43129 37120.03562
Top 50 37658.00759 36199.14679
Top 100 36792.49363 35212.99643
假如只看到這份資料,應該結論也會變成 A > B
但是要注意的是,同樣是 Top 10,A職是前百分之0.33,B職是前百分之一,
在所有分佈條件/參數都相當的情況下,前百分之0.33較高也很正常,更不用說數
量大會造成出現較大的極值次數變高。
但是這兩個職業的平均期望值是一樣的,考慮其分布方式相同,同條件下職A打贏
職B或倒過來,兩者的機率會是一樣的,前者的結論跟這個就不一致了。
換句話說,職業本身的人口數差異會讓人在看極值的時候被帶到錯誤的結論,甚至
有可能期望值低的因為人口數較多較大,大極值出現得多,造成出現的極值反而比
期望值高的大的狀況,這樣子來判斷的結論就出現了偏差。
---
那實際上要怎麼比呢?
拿前50/100/whatever作平均一定是有問題的,已前述
當然你可以把這一段資料當作對母體(i.e 同職業全體)做的取樣,然後選擇適
當的檢定方式去檢定其差異性是否成立,或者複數職業的話就是做 ANOVA 來檢
定這複數個母體是否平均有差異
不過很不幸的,這些取樣都是 biased 的,因此有結論也不算數
比較好的方法是:
1. 做定量分析直接給出固定的平均值作為解,然而現在這個遊戲要這樣做越來越
難了,特別是很多隱藏的參數或式子我們不知道,可以翻前兩天熱狗大推韌性
公式修正的就可以知道,其實很多隱藏的東西要推都要先做一些實驗取樣,再
用已知的數學模型套套看去推
2. 像 Simulation Craft 一樣做大量模擬(Monte-carlo method),這要花很長時間
同時每次跑的結果都會有差,另外也有人批評其環境太理想化,但是有些實驗變數
本來就是要控制的
不過無論如何都比拿極值出來說嘴對,實際上我上面講的東西沒有用到什麼專門的
統計學,很多都只是邏輯問題而已,為什麼說看資料要有一點統計的 sense,因為
統計就是在教大家怎麼解讀資料,你不會解讀的話出來的結論會很可怕
另外永遠不要忘記,最後的檢定目標都是比母體平均,而母體要由經過適當取樣的
資料才能代表,而不是前五十或兩百。
---
1F:→ *********:變成懷疑人家認知,你這樣等於在質疑人家團隊跟Wol資料
1. 錯誤的解讀WOL/WMO資料比不看還糟
2. 打得快不代表他懂得多,世界第一個拿到太陽井橘弓的獵人,Last Resort的Stefang
當時因為寶石插得很怪在WOW.com被砲的盛況我還有印象,但這不影響該公會世界
第六全破太陽井的事實,我們應該高興這個遊戲要倒王不是光靠每個人盯著排行榜
或者只靠各種最佳化就辦得到。
3. 關於上排行榜這件事情,我以前還在打公會團的時候,有一天黑廟阿卡馬不知道為啥
打了 6000+ dps(冰封前夕的T6畢業混SWP裝火法),就霸佔那隻王排行,連CWOW無限
刷太陽井的都壓不過去直到那個排行停止統計,要說原因就是,剛好火球全爆而且
數字都偏大(怎麼知道偏大?我自己一直在用火法實戰我當然知道啥時哪隻王數字會
長啥樣子),上榜你需要的不只是技術和團隊配合,有時候運氣才是決勝關鍵。
--
[G][小灰]: 欸蛋糕 <神樣>公會網站2011/02/13正式開張
[G][Marculescu]: 蛤 http://www.godlike-guild.com/
[G][小灰]: 你很閒對吧 計數器第15000者抓圖證明可獲冷毛口頭嘉獎一次
[G][Marculescu]: 有一點
[G][小灰]: 來做個公會網吧!只有討論區看起來超虛的
[G][Marculescu]:蛤? Marculescu <神樣> Wrathbringer-TW
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.42.94.96
2F:→ Deadend:蛋糕我覺得有些人講再多都沒用... 04/25 14:45
3F:→ Parhelia:講給講了有用的人聽就好 :p 04/25 14:47
4F:推 choosin:一邊上統計一邊偷推ˊˋ 04/25 14:48
5F:推 Shuoger:聽得懂的人就不會出來戰這個了。 =w= 04/25 14:50
6F:→ efaye:所以我一直以來認為WMO是給同職業比較用的 04/25 14:53
7F:→ efaye:撇除運氣因素,妳應該要跟同裝備等級的差不多DPS。 04/25 14:54
8F:推 skyabsence:偏偏有些職業就是很吃運氣... 04/25 14:54
9F:→ efaye:但是你王也不是一次就倒,總有幾次是你運氣好的時候 04/25 14:55
其實我覺得你看有沒有作對事就好 例如法術施放比例要接近
10F:→ gn00399745:wmo有辦法看到某個職業的總體平均值嗎?? 04/25 14:56
不知道 :( 大家都喜歡看大的
11F:推 dmlin0120:最近WMO是不是沒更新呀 04/25 15:06
12F:推 BAKU1:眼睛只有數字的人還是看不懂這篇分析文的 04/25 15:08
13F:推 potionx:其實有另外一個可能是該職業技術需求較高...所以分佈變大 04/25 15:09
14F:→ potionx:造成強的打出來就是高,弱的打出來很弱... 04/25 15:09
15F:→ potionx:統計都是看資料解讀,看的角度不同意義就不同。 04/25 15:11
基本上這是 "解讀" 的差異 統計的結論本身都是很單純的 0.0
16F:→ BAKU1:WMO數據跟團隊也有關,越快倒王數字越漂亮,尤其是有大招的 04/25 15:13
17F:推 ap521125:wmo改85以後資料量少很多很多 04/25 15:17
18F:推 potionx:用圖也可以解讀成[天時地利人和]都有xx職業就是強一點XD 04/25 15:17
19F:推 skyabsence:反正log都一樣 交叉對比就行了 04/25 15:22
20F:→ skyabsence:就光看wmo跟wol就評論也不準 排名好的有些都有特別buff 04/25 15:22
21F:推 adayoegi:火球全爆太猛了XD 04/25 15:23
22F:→ skyabsence:看過最扯的是吃Arcane Haste 這根本超強buff.. 04/25 15:24
23F:推 Heymay123:這個英文副標題覺得很眼熟,不過想不起來在哪看過... 04/25 15:52
24F:推 Caramel0519:看不懂幫推,我只看自己職業各首領排行這樣伸手牌準嗎 04/25 16:10
25F:→ Caramel0519:我指的是追求MAX的DPS參考@@? 04/25 16:10
你可以看 但你要知道他是怎麼打出來的
我必須說大部分上榜的原因三種
1. 故意衝 (ex. 奈法AE骷髏)
2. 運氣好
3. 堆buff (法師還可以偷一堆怪buff 更威)
26F:推 Heymay123:你如果看到一個DPS很高時,能知道有哪些原因造成該DPS比 04/25 16:15
27F:→ Heymay123:別人高,那樣才有意義吧? 之前火法有篇文有講到運氣問題 04/25 16:17
28F:→ Heymay123:那邊運氣好多爆了幾次或哪個時間點有爆擊,造成了DPS比 04/25 16:17
29F:→ Heymay123:較高的結果,不然只看數字的話,也只能乾瞪眼還是不知道 04/25 16:19
30F:→ Heymay123:為啥能那麼高 04/25 16:19
31F:推 ieoAAAA:哈 之前看到文章就在考慮要不要跳坑出來說一下統計的事 04/25 16:20
32F:→ ieoAAAA:結果Parhelia你就先跳了 04/25 16:21
我對於拿著有問題的資料講得很開心這件事很感冒 :x
33F:推 Caramel0519:嗯嗯我有看打的出MAX的技能打法跟用的多寡,感恩解答!! 04/25 16:30
34F:推 orgeking:看這篇#1CDhFOlq 就知道法師的偷法有多麼IMBA了!! 04/25 16:35
35F:→ orgeking:什麼都要偷看看就是法師的浪漫!(跟牧師愛心控一樣XD) 04/25 16:35
36F:推 usoko:推推 04/25 17:01
37F:推 Azarc:蛋糕你太認真啦 lol 04/25 17:33
38F:→ shoray:我覺得你只是一直在強調母體數大時樣本極值容易偏離平均值 04/25 18:07
39F:→ shoray:但不要忘了母體數「極大」時,這種取極值的問題不具代表性 04/25 18:07
40F:→ shoray:的問題又會降低...EX:取十個台灣男人來量老二長度,和取一 04/25 18:08
41F:→ shoray:萬個台灣男人老二長度然後看前一百名平均 04/25 18:08
"極值"是排行過的 假如取的極值的量是固定的那只會越來越偏 (而WMO職業排行正是這樣)
另外我看不懂你的 EX.裡面想要比較什麼
42F:推 PTTjoker:統計推~對數字解讀下錯誤結論太常見了... 04/25 18:09
43F:→ shoray:而且你的文章中反覆說到「拿有問題的資料」,在講這句話前 04/25 18:09
44F:→ shoray:應該要先證明wmo的資料有問題吧XD,10000人中的前100名平均 04/25 18:10
這邊的有問題不代表說他是假的或者有錯 而是拿這幾筆來代表母體有問題
※ 編輯: Parhelia 來自: 114.42.94.96 (04/25 18:17)
45F:→ shoray:是否不能代表這一萬人的平均要經過是否常態分布,顯著值.. 04/25 18:11
46F:→ shoray:但我在你的文章中沒看到關於wmo資料=有問題的資料=只看這些 04/25 18:11
47F:→ shoray:數字的人是腦殘不懂統計...,請問你要如何推導出wmo的資料 04/25 18:12
48F:→ shoray:=極值不具代表性的資料@@?你充其量只能說有可能不具代表性 04/25 18:13
49F:推 shoray:又或者把數字明顯異常ex:人品好到炸爆擊率80%+的法師踢掉 04/25 18:15
50F:→ shoray:其他的用一句話「拿著有問題的資料讀很爽」帶過好像也... 04/25 18:15
51F:→ shoray:當然這篇提供了對wmo數字迷信的反思,但太直接的說wmo資料 04/25 18:16
52F:→ shoray:為迷信而沒有相應的驗證...似乎也不是好事xd 04/25 18:16
你的推文太腦補了
※ 編輯: Parhelia 來自: 114.42.94.96 (04/25 18:18)
53F:推 Induction:wmo有問題的不只是outlier, shoray可以看一下excel圖 04/25 18:25
54F:→ Induction:這篇要表達的概念其實算蠻清楚了. 04/25 18:26
55F:推 shoray:這...基本上從那張圖完全不代表wmo的資料有問題啊,更何來 04/25 18:46
56F:→ shoray:拿著錯誤的資料讀很爽lol,我說過了,要看這個區塊能不能代 04/25 18:47
57F:→ shoray:表母體要經過常態性分布、顯著值驗證..等手續,否則充其量 04/25 18:48
58F:→ shoray:只能說這些資料有可能有問題,否則和自己腦補說這些值沒辦 04/25 18:48
59F:→ shoray:法代表母體平均,別人直接解讀這些數字沒sense有何二樣? 04/25 18:49
60F:→ shoray:另外直接把這種東西拿來和一般的資料統計(如身高體重類比 04/25 18:50
61F:→ shoray:然後假設所有參數都相當而推導出=>只取極值造成偏頗的看法 04/25 18:51
62F:→ shoray:那請問你如何腦補為所有參數都相當的? 04/25 18:52
63F:→ shoray:這篇在我看來是拿著很多基本的統計常識然後說盡信書不如無 04/25 18:52
64F:→ shoray:書,然後沒辦法證明他哪裡不可信的典型 04/25 18:53
1. 我從來沒說wmo資料有問題 有問題的是 "看著他的top50平均來判定各職高下"
這件事情 這件事情是用極值去代表母體 這篇是要來講這件事的問題
2. 第二個範例的參數相當是假設 他是控制變因用來呈現母體大小本身也會影響極值
3. 某段取樣能不能代表母體要檢驗是必然的 但能嗎?
65F:→ shoray:這部份我當然了解,我想表達的就是這篇東西完全沒辦法證明 04/25 19:07
66F:→ shoray:拿top50看機體強弱是非常有問題的事。特別是我不認為wow的 04/25 19:08
67F:→ shoray:dps分布會是常態分布,而當這個前提被質疑的時候,整篇的立 04/25 19:08
68F:→ shoray:論都會出現問題,你的第三點就導致了第一點很可能站不住腳 04/25 19:09
69F:→ shoray:我相信以你對統計的了解也會很清楚這種參數影響多的資料往 04/25 19:10
70F:→ shoray:往不符合常態分布不是嗎? 04/25 19:10
是的 這本來就是在簡化模型 或者說假如把操作因素去除
大部分隨機的東西都是 binomial 的 (ex. 爆擊/某些機率觸發的高 DPCT 法術的觸發)
在這種情況下最終結果用常態來模擬是比較容易的 所以才有前述假設
不過模擬的問題在其他分布仍然是做得出來的
71F:→ shoray:另外我還是很贊成這篇提出一些可能的想法,但這些可能只是 04/25 19:11
72F:→ shoray:教大家在看wmo時學會過濾掉一些太扯的data,除此之外只是推 04/25 19:12
73F:→ shoray:理「可能會有這些問題」是不是真的有這些問題,如你言,無 04/25 19:13
74F:→ shoray:法驗證。 04/25 19:13
我覺得我們想的東西只是嚴謹度差異 我也只是要說只拿那些資料比較各職強度
結論會有問題 特別是相當多人只用那些太扯的資料就在做結論了
75F:→ shoray:嗯嗯,所以只是想提醒這些東西,但如同我所言,我個人是覺 04/25 19:20
76F:→ shoray:得wow的傷害並非常態分布(這是個人經驗XD,因此提出了這些 04/25 19:20
77F:→ shoray:東西,另外感謝理性討論,我本來覺得很可能會戰起來 XXD 04/25 19:21
傷害是怎麼分布的倒是一個大問題 就像現在要定量去做 dps 期望值也異常困難啊....
其實我重點只有不要拿排行榜去比強度 這樣跟實際狀況很可能不相同而已
只要你不是鎖甲公牛我都很 nice 的 0.0v
78F:推 foreverk:我覺得排行這種東西是滿容易被質疑是否為極值的,最常見 04/25 19:25
79F:推 LatteFra:果然還是有人不懂,講再多都沒用 04/25 19:25
80F:→ foreverk:的例子是國家的所得排行,已開發國家的所得排行會較前面 04/25 19:25
81F:→ foreverk:但同時我們都知道他們都有共同的問題就是貧富差距大,對 04/25 19:26
82F:→ foreverk:照回WMO或WOL排行,其實這樣的推論不會太沒有立足點 04/25 19:27
83F:推 shoray:其實一個比較簡單的想法是,大家可以想一下台灣的平均所得 04/25 19:28
84F:→ shoray:和M型社會間的關係,在非常態分布的狀況下,極值和平均間的 04/25 19:29
85F:→ shoray:關係很難確定(舉個比較極端的例子,極值恰巧為眾數時 04/25 19:29
86F:→ Deadend:所以看 SimulationCraft 就不用擔心分布有問題這點 04/25 19:31
simulationcraft比較怕的是模擬程式機制和實際做上去的遊戲不一樣
最後跑出一堆 garbage 來 囧 不過目前為止是沒有啥太扯的事情就是
※ 編輯: Parhelia 來自: 114.42.94.96 (04/25 19:34)
87F:推 LatteFra:SimulationCraft下面的模擬統計資料,有心的人自然會去看 04/25 19:35
88F:→ LatteFra:至少在傷害分佈,跟變異數等等,都可以觀察出來 04/25 19:36
89F:→ LatteFra:當然那個模擬跟實戰的確有很大差距 04/25 19:36
90F:→ Deadend:定量分析的話我只能說,有在嘗試做的人都會知道難度有多高 04/25 19:37
91F:→ Deadend:當然 SimulationCraft 也有他的問題在,但至少母體方面 OK 04/25 19:38
92F:→ monopoliest:shoray不對吧,統計上M型社會並不存在,因為沒有個眾 04/25 22:35
93F:→ monopoliest:數做為極值 04/25 22:35
94F:推 scm80507211:身為統研大推你這篇 04/26 01:53
95F:推 JiangWuYang:推這篇 04/26 07:14
96F:推 Induction:社會學上M型社會也不存在,大前研一只是拿馬克思的無產化 04/26 07:55
97F:→ Induction:冷飯重炒, 再標一個新名稱這樣. 04/26 07:56
98F:推 candy780118:辛苦了@@真熱心... 04/26 09:16