作者clansoda (小笨)
看板DataScience
标题[问题] 多种类分类
时间Wed Sep 30 23:57:17 2020
先说抱歉,标题可能不是很容易理解
我现在的问题是一般imagenet类别的问题都是多种分类里面选一种
因此output layer的activation function常是softmax
然後再计算cross entropy loss
我现在的问题是我的问题是有多个label的
假如我的输出可能是10维的向量
那label可能就是[0, 2, 4, 7, 9] 五个不同的值
我希望在0, 2, 4, 7, 9这五维输出1 剩下的维度输出0
我想问的问题是,如果我的模型的output layer输出10维向量
并对每一个元素使用sigmoid function使其成为一个0到1的机率
接着一样用cross entropy来作为loss function
这样的方式来frame这个问题是正确或者说可行的吗
我这个想法是李弘毅老师团队的一篇Paper
Temporal Pattern Attention for Multivariate Time
Series Forecasting
里面提到说因为很多varaibles都会对预测有很好的效果
因此他们用sigmoid对attention的output做处理
这样的话多个variables都可以同时被纳入考量
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.134.15.129 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1601481441.A.ED3.html
1F:推 watashino: sigmoid完後面要做10个BCE不能做CE,CE是会发生类别之 10/01 01:27
2F:→ watashino: 间activation的压缩 10/01 01:27
3F:→ clansoda: 感谢w大,我後面的cross entropy是简写而已,感谢回覆 10/01 09:35
4F:推 goldflower: 这就multilable classification罗 很多资料的 10/03 19:43
5F:→ clansoda: 感谢g大,我会顺着这个关键字去找找看有没有其他论文 10/04 15:11
6F:→ chang1248w: ce是里面有机率的意味在,和多头注意力不能类比 10/14 01:17
7F:→ chang1248w: 不如试试看十维输出十个BCE,然後做voting 10/14 01:20
8F:→ chang1248w: 效果应该和做一个BCE差不了多少 10/14 01:20
9F:推 r40491101: 自创简写CE一度没看懂zZ 囧 11/25 21:11