作者Parhelia (Macroprocessing)
看板WOW
标题[闲聊] 阅读WMO排行榜:A Statistical Approach
时间Mon Apr 25 14:43:47 2011
关於 pve dps 的平衡与否,大家心里都有一把尺或者参考的标准,一个常见
的参考数据就是 WMO/WOL 的排行榜,上榜数量的高低和各职业最前列的排名
常常是一个被拿来论战的点,但是这些排行榜是不是真的可以这样看呢?
以下的资料(模拟的WMO DPS纪录)是由Mathwave公司的EasyFit来产生的,
之後比较简单的资料处理是用excel进行的,我们假设同职业的dps分布
都是 gaussian (要不然要用啥 XD)
我会尽量用高中等级的统计来解释,起码一些怪名词还是别出现好,这里不是统计
学版 XD
1. 职业本身变异性对排行榜的影响
请看 Excel 档案
http://www.megaupload.com/?d=31RW0DNV
假设职业A和职业B两个职业各有某王的1000笔资料上传,假如大家装备都差不多
职业A和职业B的平均dps都是30000,但职业A的伤害变数很大,标准差会到6000,
职业B相对稳定,他们的标准差只有3000
这两个职业模拟出来的分布大约像这样
http://www.glog.cc/1_pic/0E6EE26A09063.jpg
事实上你能看到,职业A因为本身变异大,出现的最大最小极值自然也特别大
假如你取最前面的几名来看(就是现在WMO/WOL那样),大概会做出A职比B职威的结论
Class A Class B
Top 1% (top 10) 46099.78588 38273.48347
Top 5% (top 50) 42276.38634 36296.03269
Top 10%(top 100) 40384.66923 35376.46425
Top 25%(top 250) 37531.52244 33978.94519
Top 50%(top 500) 34731.49391 32552.72866
AVG 29856.55372 30166.04668
但是这两个职业的平均期望值是一样的,考虑其分布方式相同,同条件下职A打赢
职B或倒过来,两者的机率会是一样的,前者的结论跟这个就不一致了。
换句话说,职业本身的变异性会让人在看极值的时候被带到错误的结论,甚至
有可能期望值低的因为变异性较大,造成出现的极值反而比期望值高的大的状况,
这样子来判断的结论就出现了偏差。
2. 职业本身人口数对排行榜的影响
请看Excel档案
http://www.megaupload.com/?d=HNNPIPHB
假设职业A和职业B他们威力可说相当,打某王平均皆为30000 dps,标准差皆为
3000,但是职业B因为套装造型太丑没人要玩,所以职业A有3000笔资料上传,
职业B只有1000笔
这两个职业的模拟分布大概像这样
http://www.glog.cc/1_pic/0E6EE2DF5FF4B.jpg
其照比例看的平均大概像这样
Class A Class B
Top 1% 38253.66189 38146.13278
Top 5% 36244.61259 36199.14679
Top 10% 35299.60868 35212.99643
Top 25% 33818.93452 33780.08532
Top 50% 32325.56346 32346.23414
Average 29893.54547 29977.45931
都满一致的,但是假如依照WMO/WOL的排行榜,你会看到这个
Class A Class B
Top 10 39427.10323 38146.13278
Top 25 38460.43129 37120.03562
Top 50 37658.00759 36199.14679
Top 100 36792.49363 35212.99643
假如只看到这份资料,应该结论也会变成 A > B
但是要注意的是,同样是 Top 10,A职是前百分之0.33,B职是前百分之一,
在所有分布条件/参数都相当的情况下,前百分之0.33较高也很正常,更不用说数
量大会造成出现较大的极值次数变高。
但是这两个职业的平均期望值是一样的,考虑其分布方式相同,同条件下职A打赢
职B或倒过来,两者的机率会是一样的,前者的结论跟这个就不一致了。
换句话说,职业本身的人口数差异会让人在看极值的时候被带到错误的结论,甚至
有可能期望值低的因为人口数较多较大,大极值出现得多,造成出现的极值反而比
期望值高的大的状况,这样子来判断的结论就出现了偏差。
---
那实际上要怎麽比呢?
拿前50/100/whatever作平均一定是有问题的,已前述
当然你可以把这一段资料当作对母体(i.e 同职业全体)做的取样,然後选择适
当的检定方式去检定其差异性是否成立,或者复数职业的话就是做 ANOVA 来检
定这复数个母体是否平均有差异
不过很不幸的,这些取样都是 biased 的,因此有结论也不算数
比较好的方法是:
1. 做定量分析直接给出固定的平均值作为解,然而现在这个游戏要这样做越来越
难了,特别是很多隐藏的参数或式子我们不知道,可以翻前两天热狗大推韧性
公式修正的就可以知道,其实很多隐藏的东西要推都要先做一些实验取样,再
用已知的数学模型套套看去推
2. 像 Simulation Craft 一样做大量模拟(Monte-carlo method),这要花很长时间
同时每次跑的结果都会有差,另外也有人批评其环境太理想化,但是有些实验变数
本来就是要控制的
不过无论如何都比拿极值出来说嘴对,实际上我上面讲的东西没有用到什麽专门的
统计学,很多都只是逻辑问题而已,为什麽说看资料要有一点统计的 sense,因为
统计就是在教大家怎麽解读资料,你不会解读的话出来的结论会很可怕
另外永远不要忘记,最後的检定目标都是比母体平均,而母体要由经过适当取样的
资料才能代表,而不是前五十或两百。
---
1F:→ *********:变成怀疑人家认知,你这样等於在质疑人家团队跟Wol资料
1. 错误的解读WOL/WMO资料比不看还糟
2. 打得快不代表他懂得多,世界第一个拿到太阳井橘弓的猎人,Last Resort的Stefang
当时因为宝石插得很怪在WOW.com被炮的盛况我还有印象,但这不影响该公会世界
第六全破太阳井的事实,我们应该高兴这个游戏要倒王不是光靠每个人盯着排行榜
或者只靠各种最佳化就办得到。
3. 关於上排行榜这件事情,我以前还在打公会团的时候,有一天黑庙阿卡马不知道为啥
打了 6000+ dps(冰封前夕的T6毕业混SWP装火法),就霸占那只王排行,连CWOW无限
刷太阳井的都压不过去直到那个排行停止统计,要说原因就是,刚好火球全爆而且
数字都偏大(怎麽知道偏大?我自己一直在用火法实战我当然知道啥时哪只王数字会
长啥样子),上榜你需要的不只是技术和团队配合,有时候运气才是决胜关键。
--
[G][小灰]: 欸蛋糕 <神样>公会网站2011/02/13正式开张
[G][Marculescu]: 蛤 http://www.godlike-guild.com/
[G][小灰]: 你很闲对吧 计数器第15000者抓图证明可获冷毛口头嘉奖一次
[G][Marculescu]: 有一点
[G][小灰]: 来做个公会网吧!只有讨论区看起来超虚的
[G][Marculescu]:蛤? Marculescu <神样> Wrathbringer-TW
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.42.94.96
2F:→ Deadend:蛋糕我觉得有些人讲再多都没用... 04/25 14:45
3F:→ Parhelia:讲给讲了有用的人听就好 :p 04/25 14:47
4F:推 choosin:一边上统计一边偷推ˊˋ 04/25 14:48
5F:推 Shuoger:听得懂的人就不会出来战这个了。 =w= 04/25 14:50
6F:→ efaye:所以我一直以来认为WMO是给同职业比较用的 04/25 14:53
7F:→ efaye:撇除运气因素,你应该要跟同装备等级的差不多DPS。 04/25 14:54
8F:推 skyabsence:偏偏有些职业就是很吃运气... 04/25 14:54
9F:→ efaye:但是你王也不是一次就倒,总有几次是你运气好的时候 04/25 14:55
其实我觉得你看有没有作对事就好 例如法术施放比例要接近
10F:→ gn00399745:wmo有办法看到某个职业的总体平均值吗?? 04/25 14:56
不知道 :( 大家都喜欢看大的
11F:推 dmlin0120:最近WMO是不是没更新呀 04/25 15:06
12F:推 BAKU1:眼睛只有数字的人还是看不懂这篇分析文的 04/25 15:08
13F:推 potionx:其实有另外一个可能是该职业技术需求较高...所以分布变大 04/25 15:09
14F:→ potionx:造成强的打出来就是高,弱的打出来很弱... 04/25 15:09
15F:→ potionx:统计都是看资料解读,看的角度不同意义就不同。 04/25 15:11
基本上这是 "解读" 的差异 统计的结论本身都是很单纯的 0.0
16F:→ BAKU1:WMO数据跟团队也有关,越快倒王数字越漂亮,尤其是有大招的 04/25 15:13
17F:推 ap521125:wmo改85以後资料量少很多很多 04/25 15:17
18F:推 potionx:用图也可以解读成[天时地利人和]都有xx职业就是强一点XD 04/25 15:17
19F:推 skyabsence:反正log都一样 交叉对比就行了 04/25 15:22
20F:→ skyabsence:就光看wmo跟wol就评论也不准 排名好的有些都有特别buff 04/25 15:22
21F:推 adayoegi:火球全爆太猛了XD 04/25 15:23
22F:→ skyabsence:看过最扯的是吃Arcane Haste 这根本超强buff.. 04/25 15:24
23F:推 Heymay123:这个英文副标题觉得很眼熟,不过想不起来在哪看过... 04/25 15:52
24F:推 Caramel0519:看不懂帮推,我只看自己职业各首领排行这样伸手牌准吗 04/25 16:10
25F:→ Caramel0519:我指的是追求MAX的DPS参考@@? 04/25 16:10
你可以看 但你要知道他是怎麽打出来的
我必须说大部分上榜的原因三种
1. 故意冲 (ex. 奈法AE骷髅)
2. 运气好
3. 堆buff (法师还可以偷一堆怪buff 更威)
26F:推 Heymay123:你如果看到一个DPS很高时,能知道有哪些原因造成该DPS比 04/25 16:15
27F:→ Heymay123:别人高,那样才有意义吧? 之前火法有篇文有讲到运气问题 04/25 16:17
28F:→ Heymay123:那边运气好多爆了几次或哪个时间点有爆击,造成了DPS比 04/25 16:17
29F:→ Heymay123:较高的结果,不然只看数字的话,也只能乾瞪眼还是不知道 04/25 16:19
30F:→ Heymay123:为啥能那麽高 04/25 16:19
31F:推 ieoAAAA:哈 之前看到文章就在考虑要不要跳坑出来说一下统计的事 04/25 16:20
32F:→ ieoAAAA:结果Parhelia你就先跳了 04/25 16:21
我对於拿着有问题的资料讲得很开心这件事很感冒 :x
33F:推 Caramel0519:嗯嗯我有看打的出MAX的技能打法跟用的多寡,感恩解答!! 04/25 16:30
34F:推 orgeking:看这篇#1CDhFOlq 就知道法师的偷法有多麽IMBA了!! 04/25 16:35
35F:→ orgeking:什麽都要偷看看就是法师的浪漫!(跟牧师爱心控一样XD) 04/25 16:35
36F:推 usoko:推推 04/25 17:01
37F:推 Azarc:蛋糕你太认真啦 lol 04/25 17:33
38F:→ shoray:我觉得你只是一直在强调母体数大时样本极值容易偏离平均值 04/25 18:07
39F:→ shoray:但不要忘了母体数「极大」时,这种取极值的问题不具代表性 04/25 18:07
40F:→ shoray:的问题又会降低...EX:取十个台湾男人来量老二长度,和取一 04/25 18:08
41F:→ shoray:万个台湾男人老二长度然後看前一百名平均 04/25 18:08
"极值"是排行过的 假如取的极值的量是固定的那只会越来越偏 (而WMO职业排行正是这样)
另外我看不懂你的 EX.里面想要比较什麽
42F:推 PTTjoker:统计推~对数字解读下错误结论太常见了... 04/25 18:09
43F:→ shoray:而且你的文章中反覆说到「拿有问题的资料」,在讲这句话前 04/25 18:09
44F:→ shoray:应该要先证明wmo的资料有问题吧XD,10000人中的前100名平均 04/25 18:10
这边的有问题不代表说他是假的或者有错 而是拿这几笔来代表母体有问题
※ 编辑: Parhelia 来自: 114.42.94.96 (04/25 18:17)
45F:→ shoray:是否不能代表这一万人的平均要经过是否常态分布,显着值.. 04/25 18:11
46F:→ shoray:但我在你的文章中没看到关於wmo资料=有问题的资料=只看这些 04/25 18:11
47F:→ shoray:数字的人是脑残不懂统计...,请问你要如何推导出wmo的资料 04/25 18:12
48F:→ shoray:=极值不具代表性的资料@@?你充其量只能说有可能不具代表性 04/25 18:13
49F:推 shoray:又或者把数字明显异常ex:人品好到炸爆击率80%+的法师踢掉 04/25 18:15
50F:→ shoray:其他的用一句话「拿着有问题的资料读很爽」带过好像也... 04/25 18:15
51F:→ shoray:当然这篇提供了对wmo数字迷信的反思,但太直接的说wmo资料 04/25 18:16
52F:→ shoray:为迷信而没有相应的验证...似乎也不是好事xd 04/25 18:16
你的推文太脑补了
※ 编辑: Parhelia 来自: 114.42.94.96 (04/25 18:18)
53F:推 Induction:wmo有问题的不只是outlier, shoray可以看一下excel图 04/25 18:25
54F:→ Induction:这篇要表达的概念其实算蛮清楚了. 04/25 18:26
55F:推 shoray:这...基本上从那张图完全不代表wmo的资料有问题啊,更何来 04/25 18:46
56F:→ shoray:拿着错误的资料读很爽lol,我说过了,要看这个区块能不能代 04/25 18:47
57F:→ shoray:表母体要经过常态性分布、显着值验证..等手续,否则充其量 04/25 18:48
58F:→ shoray:只能说这些资料有可能有问题,否则和自己脑补说这些值没办 04/25 18:48
59F:→ shoray:法代表母体平均,别人直接解读这些数字没sense有何二样? 04/25 18:49
60F:→ shoray:另外直接把这种东西拿来和一般的资料统计(如身高体重类比 04/25 18:50
61F:→ shoray:然後假设所有参数都相当而推导出=>只取极值造成偏颇的看法 04/25 18:51
62F:→ shoray:那请问你如何脑补为所有参数都相当的? 04/25 18:52
63F:→ shoray:这篇在我看来是拿着很多基本的统计常识然後说尽信书不如无 04/25 18:52
64F:→ shoray:书,然後没办法证明他哪里不可信的典型 04/25 18:53
1. 我从来没说wmo资料有问题 有问题的是 "看着他的top50平均来判定各职高下"
这件事情 这件事情是用极值去代表母体 这篇是要来讲这件事的问题
2. 第二个范例的参数相当是假设 他是控制变因用来呈现母体大小本身也会影响极值
3. 某段取样能不能代表母体要检验是必然的 但能吗?
65F:→ shoray:这部份我当然了解,我想表达的就是这篇东西完全没办法证明 04/25 19:07
66F:→ shoray:拿top50看机体强弱是非常有问题的事。特别是我不认为wow的 04/25 19:08
67F:→ shoray:dps分布会是常态分布,而当这个前提被质疑的时候,整篇的立 04/25 19:08
68F:→ shoray:论都会出现问题,你的第三点就导致了第一点很可能站不住脚 04/25 19:09
69F:→ shoray:我相信以你对统计的了解也会很清楚这种参数影响多的资料往 04/25 19:10
70F:→ shoray:往不符合常态分布不是吗? 04/25 19:10
是的 这本来就是在简化模型 或者说假如把操作因素去除
大部分随机的东西都是 binomial 的 (ex. 爆击/某些机率触发的高 DPCT 法术的触发)
在这种情况下最终结果用常态来模拟是比较容易的 所以才有前述假设
不过模拟的问题在其他分布仍然是做得出来的
71F:→ shoray:另外我还是很赞成这篇提出一些可能的想法,但这些可能只是 04/25 19:11
72F:→ shoray:教大家在看wmo时学会过滤掉一些太扯的data,除此之外只是推 04/25 19:12
73F:→ shoray:理「可能会有这些问题」是不是真的有这些问题,如你言,无 04/25 19:13
74F:→ shoray:法验证。 04/25 19:13
我觉得我们想的东西只是严谨度差异 我也只是要说只拿那些资料比较各职强度
结论会有问题 特别是相当多人只用那些太扯的资料就在做结论了
75F:→ shoray:嗯嗯,所以只是想提醒这些东西,但如同我所言,我个人是觉 04/25 19:20
76F:→ shoray:得wow的伤害并非常态分布(这是个人经验XD,因此提出了这些 04/25 19:20
77F:→ shoray:东西,另外感谢理性讨论,我本来觉得很可能会战起来 XXD 04/25 19:21
伤害是怎麽分布的倒是一个大问题 就像现在要定量去做 dps 期望值也异常困难啊....
其实我重点只有不要拿排行榜去比强度 这样跟实际状况很可能不相同而已
只要你不是锁甲公牛我都很 nice 的 0.0v
78F:推 foreverk:我觉得排行这种东西是满容易被质疑是否为极值的,最常见 04/25 19:25
79F:推 LatteFra:果然还是有人不懂,讲再多都没用 04/25 19:25
80F:→ foreverk:的例子是国家的所得排行,已开发国家的所得排行会较前面 04/25 19:25
81F:→ foreverk:但同时我们都知道他们都有共同的问题就是贫富差距大,对 04/25 19:26
82F:→ foreverk:照回WMO或WOL排行,其实这样的推论不会太没有立足点 04/25 19:27
83F:推 shoray:其实一个比较简单的想法是,大家可以想一下台湾的平均所得 04/25 19:28
84F:→ shoray:和M型社会间的关系,在非常态分布的状况下,极值和平均间的 04/25 19:29
85F:→ shoray:关系很难确定(举个比较极端的例子,极值恰巧为众数时 04/25 19:29
86F:→ Deadend:所以看 SimulationCraft 就不用担心分布有问题这点 04/25 19:31
simulationcraft比较怕的是模拟程式机制和实际做上去的游戏不一样
最後跑出一堆 garbage 来 囧 不过目前为止是没有啥太扯的事情就是
※ 编辑: Parhelia 来自: 114.42.94.96 (04/25 19:34)
87F:推 LatteFra:SimulationCraft下面的模拟统计资料,有心的人自然会去看 04/25 19:35
88F:→ LatteFra:至少在伤害分布,跟变异数等等,都可以观察出来 04/25 19:36
89F:→ LatteFra:当然那个模拟跟实战的确有很大差距 04/25 19:36
90F:→ Deadend:定量分析的话我只能说,有在尝试做的人都会知道难度有多高 04/25 19:37
91F:→ Deadend:当然 SimulationCraft 也有他的问题在,但至少母体方面 OK 04/25 19:38
92F:→ monopoliest:shoray不对吧,统计上M型社会并不存在,因为没有个众 04/25 22:35
93F:→ monopoliest:数做为极值 04/25 22:35
94F:推 scm80507211:身为统研大推你这篇 04/26 01:53
95F:推 JiangWuYang:推这篇 04/26 07:14
96F:推 Induction:社会学上M型社会也不存在,大前研一只是拿马克思的无产化 04/26 07:55
97F:→ Induction:冷饭重炒, 再标一个新名称这样. 04/26 07:56
98F:推 candy780118:辛苦了@@真热心... 04/26 09:16