作者b29308188 (ben)
看板NBA
标题Re: [讨论] 2021 NBA历史百大球员排行
时间Sat Jul 24 10:44:48 2021
首Po赚个P币
个人对Learning to rank略有接触,想说从一个不同的角度切入百大排名这件。
首先找到一组权重去对球员排名本身就是非常困难的问题。像前面版友讲的,有人会说得分王重要乘以2,有人会说强分区要加权,还是不是要考虑DPOY/正负值/季後赛胜率/明星赛次数...要考虑的特徵排列组合非常非常多,还要帮每个特徵选出一个权重。
所以从资料科学的角度,常用的方式就是用监督式机器学习从现有的资料里学出权重,这种方式必须要标记的资料。举个例子:
大家都把自己的百大排名打在下方,这样我们可能就得到了一些样本可以去建立回归模型。
然而以上也只是理想中的情况,实际上还有很多问题。首先是资料标记的问题 : 一般人大概排到第十几个球员就懒得排下去了。这时候我们可以把排序问题变成比较问题 (MJ >> Curry 之类的),当我们有足够的一组组的比较样本之後,就也比较容易排出序列。
当然取得以上的资料後还会有很多问题,比方说以上的资料可能会有矛盾,又或者有反串,重复留言....之类的问题要处理。用哪些特徵也是需要钻研的。而且最终学出来的权重也可能只是符合NBA版上对这篇文有留言的人的数据分布而已,说不定相较於广大群众是反指标。
但至少我们可以透过分割资料的方式去评估这个模型的精确度,应该会比直接人为的定义权重略微符合风向。
-----
Sent from JPTT on my Google Pixel 4 XL.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 73.59.104.58 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/NBA/M.1627094690.A.2BC.html
1F:推 pneumo : 我本来期待按下页会看到你的算法.... 07/24 10:47
2F:推 ljk476820 : 同一楼.. 07/24 10:48
3F:推 youngluke : 同意 但就是要有资料库 07/24 10:50
4F:推 koga5566 : 交给你了 07/24 10:52
5F:推 koga5566 : 不然拿近五年所有媒体做的来当资料 07/24 10:54
6F:→ shifa : 你用PTT推文去当回归的data目的是? 07/24 11:03
7F:推 youngluke : 回归出在PTT推文最顺风的排名 07/24 11:05
8F:推 ganhua : 板上一堆反串,到时候真的生出来又要继续吵架了XDD 07/24 11:09
9F:推 mightymouse : 要拿模型套在主观评价真的很难,像Ewing生涯荣耀很 07/24 13:15
10F:→ mightymouse : 明显比D. Howard少很多,可是所有媒体历史排名Ewing 07/24 13:15
11F:→ mightymouse : 都是屌打DH 07/24 13:15
12F:推 stja : 07/24 13:18
13F:推 mmk : 如果仔细分析 争议文的推文应该有很高比率在反串 07/24 14:42