作者disney82231 (小刀会序曲)
看板DataScience
标题[问题] 异常检测属於不平衡资料情况吗
时间Wed Feb 20 20:46:03 2019
如题,
两个共同点都是在某个类别下的样本数很少。但不太知道差在哪
还是异常检测是一种预测不平衡资料的方法?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.116.103
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1550666766.A.60D.html
※ 编辑: disney82231 (42.72.116.103), 02/20/2019 20:56:41
1F:推 tsoahans: 一般常讲的异常检测指的是非监督式的异常检测,就是说训02/21 15:54
2F:→ tsoahans: 练的时候假设所有训练资料都是正常的样本,用正常资料建02/21 15:56
3F:→ tsoahans: 立模型02/21 15:56
但没有label的情况下,要怎麽判断该样本是否正常?
4F:→ tsoahans: 而不平衡资料则是属於一般的监督式学习02/21 15:57
5F:→ tsoahans: 差别就是在於有没有label02/21 15:58
※ 编辑: disney82231 (182.234.222.206), 02/22/2019 03:13:08
6F:推 tsoahans: 如果你是问没有label要如何计算效能,测试的时候其实还02/22 14:01
7F:→ tsoahans: 是需要有label来验证演算法的效能02/22 14:01
8F:→ tsoahans: 大部分论文的做法都是根据label挑选出正常样本集合的一02/22 14:02
9F:→ tsoahans: 部分当作训练集,在拿剩下的当作测试02/22 14:02
意思不平衡资料需要异常分类的样本建模,而异常检测只需正常的,也能测出异常的样本
吗?
※ 编辑: disney82231 (111.71.46.175), 02/22/2019 20:55:25
10F:推 tsoahans: 是这样没错 02/23 18:53
11F:推 sxy67230: 异常检测可以透过离群点找出,主要是因为异常资料太少了 03/11 19:59
12F:→ sxy67230: ,除非你可以主动生成异常的资料,那就可以把outlier视 03/11 19:59
13F:→ sxy67230: 为不平衡的,要不然通常假定outlier就是不可知的。当然 03/11 19:59
14F:→ sxy67230: 无监督方式找离群点不一定有效就是了,通常借助一些eval 03/11 19:59
15F:→ sxy67230: uation的方式评估做tradeoff,反而比你去做无监督找离群 03/11 19:59
16F:→ sxy67230: 有效 03/11 19:59