作者clairehuei ()
看板DataScience
标题[问题] 多标签任务(Multi-Label)模型评估
时间Sat Aug 24 17:47:12 2019
各位大大好,最近小弟用keras在进行一个多标签(不是多分类)模型的训练,
ex:
# Samples
y_true = np.array([[1,1,0,0,1], [1,0,1,1,0], [0,1,1,0,0]])
y_pred = np.array([[0,1,1,1,1], [1,0,0,1,1], [1,0,1,0,0]])
想问的是,在实务上对於这种任务的模型效能应该怎麽评估?
目前我是爬文後参考网路上的建议,采用:
model.compile(loss='binary_crossentropy', optimizer='adam',
metrics=['accuracy'])
算出来的分数很高,但感觉有点怪怪的,不太确定这样的评估标准是根据什麽?
一般二分类的分数计算较为直观且易於验算, 但在这边有点难以理解~"~
恳请各位大大不吝指点, 感恩 <(_*_)>
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.160.84.186 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1566640034.A.510.html
1F:推 bessgaga: 那个loss就是把每一个label都当作一个二分类问题来做, 08/24 17:57
2F:→ bessgaga: 至於matric其实可以自己写你要的效能判断式,比如我之前 08/24 17:57
3F:→ bessgaga: 在做通讯工程问题就是算overall capacity ,不一定要拘 08/24 17:57
4F:→ bessgaga: 泥在他的matrices 08/24 17:57
5F:推 sean50301: multi label用precision recall来看比较好吧? 08/24 20:04
6F:推 yoyololicon: precision recall f1-score 08/24 20:43
7F:→ KuChanTung: 必须要自己写generator 08/24 20:49
之前做二分类的时候有使用:
Accuracy / Precision / Recall / F1-measure / ROC&AUC 这些指标
在多标签这边要用的话,是要针对个别的label去计算上述指标分数吗?
有没有一种指标是以整体来评估的呢?
※ 编辑: clairehuei (1.160.84.186 台湾), 08/24/2019 21:44:38
※ 编辑: clairehuei (1.160.84.186 台湾), 08/24/2019 21:45:05
8F:推 luluthejason: 我觉得 要看你到底想要评估什麽才对 不是说找个指 08/27 18:15
9F:→ luluthejason: 标就好 是看你有什麽期望才对吧? 08/27 18:15
10F:推 illegalplan: 不然你自己对每个类别的F1做加权如何 之後再看各类 08/28 09:55
11F:→ illegalplan: 别的recall/precision 08/28 09:55
12F:推 ZongXiu: 使小数点第一位四舍五入,取整数,计算完全相同的比例 08/30 19:19