作者disney82231 (小刀會序曲)
看板DataScience
標題[問題] 異常檢測屬於不平衡資料情況嗎
時間Wed Feb 20 20:46:03 2019
如題,
兩個共同點都是在某個類別下的樣本數很少。但不太知道差在哪
還是異常檢測是一種預測不平衡資料的方法?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.116.103
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1550666766.A.60D.html
※ 編輯: disney82231 (42.72.116.103), 02/20/2019 20:56:41
1F:推 tsoahans: 一般常講的異常檢測指的是非監督式的異常檢測,就是說訓02/21 15:54
2F:→ tsoahans: 練的時候假設所有訓練資料都是正常的樣本,用正常資料建02/21 15:56
3F:→ tsoahans: 立模型02/21 15:56
但沒有label的情況下,要怎麼判斷該樣本是否正常?
4F:→ tsoahans: 而不平衡資料則是屬於一般的監督式學習02/21 15:57
5F:→ tsoahans: 差別就是在於有沒有label02/21 15:58
※ 編輯: disney82231 (182.234.222.206), 02/22/2019 03:13:08
6F:推 tsoahans: 如果你是問沒有label要如何計算效能,測試的時候其實還02/22 14:01
7F:→ tsoahans: 是需要有label來驗證演算法的效能02/22 14:01
8F:→ tsoahans: 大部分論文的做法都是根據label挑選出正常樣本集合的一02/22 14:02
9F:→ tsoahans: 部分當作訓練集,在拿剩下的當作測試02/22 14:02
意思不平衡資料需要異常分類的樣本建模,而異常檢測只需正常的,也能測出異常的樣本
嗎?
※ 編輯: disney82231 (111.71.46.175), 02/22/2019 20:55:25
10F:推 tsoahans: 是這樣沒錯 02/23 18:53
11F:推 sxy67230: 異常檢測可以透過離群點找出,主要是因為異常資料太少了 03/11 19:59
12F:→ sxy67230: ,除非你可以主動生成異常的資料,那就可以把outlier視 03/11 19:59
13F:→ sxy67230: 為不平衡的,要不然通常假定outlier就是不可知的。當然 03/11 19:59
14F:→ sxy67230: 無監督方式找離群點不一定有效就是了,通常借助一些eval 03/11 19:59
15F:→ sxy67230: uation的方式評估做tradeoff,反而比你去做無監督找離群 03/11 19:59
16F:→ sxy67230: 有效 03/11 19:59