作者PyTorch (背後骯髒的PY火炬)
看板DataScience
標題[討論] 現在CNN架構對scale變化的解法?
時間Wed Jul 31 20:45:09 2019
就我所知
CNN並不是不受scale變化影響的的 譬如說 同一顆球 我近一點拍 讓球比較大
CNN就可能判錯
對不同大小影像CNN目前的解法
1. 硬train一發, 讓不同大小的data都有train到 然而CNN學到的feature仍不是scale
invairant的 若是出現training data中沒有的大小 還是可能會錯
2. 多加幾個CNN: 一個CNN不夠 可以用多個 例如1x1 3x3 5x5 同時都抽feature 然後再
merge起來
例如googleNet
這樣就同時考慮不同大小 但是這樣還是有極限
除非 3x3, 4x4, 5x5, 6x6, ...所有大小都有
3. Laplacian Pyramid/Gaussian Pyramid: 傳統的CV技術 不過跟CNN好像沒有很合?
4. Pooling: 把不同大小都pooling到一樣大小, 例如ROI pooling, 這我不知道算不算?
可是我覺得其實這只是計算方便 沒有讓他真的對不同尺度都有優化到?
小弟才疏學淺 還請各位先進補充補充
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.77.18 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1564577111.A.D3E.html
※ 編輯: PyTorch (140.112.150.97 臺灣), 07/31/2019 21:12:39
1F:→ ScottOAO: 1. data augumentation 08/01 09:24
2F:→ ScottOAO: 圖片大小不同 global avg pooling 08/01 09:25
3F:→ yoyololicon: 雖然不是scale invariant 不過最近有一篇在講transl- 08/01 13:50
4F:→ yoyololicon: ation invariant的paper 有些概念可以借鏡一下 08/01 13:50
6F:→ Mchord: Convolution本身就不可能scale invariant, 都是拿model ca 08/02 08:27
7F:→ Mchord: pacity去換來的 08/02 08:27
8F:推 sxy67230: 要嘛做augmentation ,要嘛增加模型capacity 。不過沒人 08/02 19:33
9F:→ sxy67230: 提capsule net,hinton在文章中有採用em Routing 跟pose 08/02 19:33
10F:→ sxy67230: matrix來對抗rotation,我是覺得要對抗scale跟rotation 08/02 19:33
11F:→ sxy67230: 還是要從圖學的角度出發就是了。要不然其實只是在增加 08/02 19:33
12F:→ sxy67230: 更多節點強迫網路記憶你的資料而已。 08/02 19:33
13F:推 jameschiou: 最近在解類似問題 目前是object detection後切ROI後分 08/04 15:02
14F:→ jameschiou: 析 效果比直接用augmentation好一些 08/04 15:04
15F:推 chobit199685: FPN不是解決了嗎? 08/09 00:08