作者filialpiety (filialpiety)
看板DataScience
标题[问题] 关於传统ML的评估良劣标准
时间Fri Jul 3 12:56:06 2020
想请问一下sensitiviy、accuracy、precision、F1等分数良劣的判断标准值在哪?
不知道有没有类似结构方程式适配度指标,有文献支持的判断标准值
Ps:小弟有尝试找过文献,可是对纯资讯和纯统计领域不太熟,麻烦各位大大指点
感谢万分
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.139.162.134 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1593752168.A.0E0.html
1F:→ loser113: 标准点就看需求 业界应该也是要测到差不多准07/03 13:42
2F:→ loser113: 一次调到完美应该不太可能07/03 13:42
3F:推 ddavid: 这跟需求有关,标准不是唯一的07/03 13:55
4F:→ ddavid: 你很惜字如金,猜得少没关系,重视凡猜必中,就要重视07/03 13:57
5F:→ ddavid: precision07/03 13:57
6F:→ ddavid: 你要把所有嫌疑犯找出来,力求涵盖真凶在内,找太多也没关07/03 13:58
7F:→ ddavid: 系,那就会看重Recall07/03 13:58
8F:→ ddavid: 你觉得两种都要并重就会选F1,并重却又不等重就会选择某个07/03 14:00
9F:→ ddavid: 某个不平衡的F-score07/03 14:07
10F:→ ddavid: 如果是Multi-label,花样更多了XD07/03 14:08
11F:→ ddavid: 然後这非常data/task dependant,你顶多实践了以後,回头07/03 14:10
12F:→ ddavid: 用结果反向评估说「我们过度重视precision,结果在此资料07/03 14:11
13F:→ ddavid: 下因为太难正确分类,导致Model过度偏向几乎全部猜False」07/03 14:12
14F:→ ddavid: 「太重视recall导致Model做了过多True猜测,结果筛除的 07/03 14:14
15F:→ ddavid: False instance过少,没有实用价值」,这才去调整measure07/03 14:14
16F:→ ddavid: 的比重07/03 14:15
17F:推 aidansky0989: 不一定,看需求场景 07/03 20:02
18F:→ Starcraft2: 各个领域可能会有标准的dataset跟目前各个metrics的07/04 04:20
19F:→ Starcraft2: 表现基於不同的model (学术界跟业界有很多paper)07/04 04:21
20F:→ Starcraft2: 例如影像辨识可能就看CIFAR-10这个dataset07/04 04:22
21F:→ Starcraft2: 自然语言可能会看GLUE/ WNLI这个dataset上大家在各种07/04 04:23
22F:→ Starcraft2: 自然语言上的task表现的怎麽样 有一定的benchmark 07/04 04:24
23F:→ Starcraft2: 做指标07/04 04:24
25F:→ Starcraft2: 如果是其他自己要在公司做的特定案子, d大讲得很好就07/05 01:45
26F:→ Starcraft2: 是看实际的应用跟metrics对business的影响07/05 01:46
感谢楼上各位大大的回应,小弟比较有概念了!会再仔细摸索。原来要看回答的问题做cu
toff,感谢各位的协助!
想再多问一个问题multi-label 的部分,网路上多以二元分类,後来我看多元分类最终也
是以二元分类形式产出,请问有没有适合新手在multi-label更深入认识上的文章呢?
感谢各位
※ 编辑: filialpiety (223.138.67.252 台湾), 07/05/2020 10:33:45
喔对!!我刚刚开电脑查以下这两篇,请问这适合入门新手吗??
Classifier chains for multi-label classification
Multi-label classification: An overview
※ 编辑: filialpiety (42.75.147.11 台湾), 07/05/2020 12:02:12
27F:推 ddavid: 新手从Overview那篇看起应该很OK,不过我怀疑你会不会连基 07/05 20:19
28F:→ ddavid: 础的single-label classification都还不够熟悉,看情况可 07/05 20:20
29F:→ ddavid: 以加减先补一下。因为multi-label的版本有很多是从single 07/05 20:21
30F:→ ddavid: -label的版本延伸而来的 07/05 20:22
我single lable的概念主要从流病开始,看来得复习一下了!请问有推荐以资工角度切入
的single lable文献或文献的关键字?
感谢万分~~
※ 编辑: filialpiety (42.75.32.55 台湾), 07/05/2020 21:09:01
31F:推 ddavid: 一些学校的ML上课投影片应该都可以翻翻吧,然後我随手翻了07/06 16:25
32F:→ ddavid: 一下: 07/06 16:25
34F:→ ddavid: 这篇整理该提到的基础方法大致都有提到啦,但是对於各项评07/06 16:26
35F:→ ddavid: 估标准没太多着墨是个缺点,不过基础的那些课程投影片里面 07/06 16:28
36F:→ ddavid: 应该都有吧 07/06 16:28
感谢d大,我会好好看的~谢谢您
※ 编辑: filialpiety (223.139.211.64 台湾), 07/08/2020 12:06:02