[討論] VGG16和adam

時間Sat Apr 29 17:41:21 2023

ctrl + y 可以刪除一整行，請將不需要的內容刪除文章分類提示: - 問題: 當你想要問問題時，請使用這個類別。 - 討論: 當你自己已經有答案，但是也想聽聽版友意見時。 - 情報: 當你看到消息時，請使用這個類別。根據板規規定，做適當的轉換，以及摘錄重要文意。 - 心得: 當你自己想要分享經驗時，請使用這個類別。 [關鍵字]:VGG [重點摘要]: 這是之前版上那篇驗證accuarcy完全沒變的回文，但是因為問題已經解決而且有新疑問所以發新文章並改用討論作為分類主要想討論的問題是，VGG真的和ADAM處不好?我是在網上看到有人講這件事改用SGD後loss才有在明顯變動他的說法是ADAM遇到VGG等參數大的模型就會失常，他還說是常識但我是第一次看到QAQ (板友chang1248w指這是錯誤資訊) 一方面我自己改成SGD後總算是能開始訓練，另一方面卻也看到有人用使用ADAM的VGG去做cifar10 我也有在猜這次的分類任務是二分法這點會不會也有影響而這次訓練的資訊如下: pastebin:https://pastebin.com/H3MeGvht 模型:VGG16 目的:參照https://youtu.be/2xMLlm_VDJE，訓練出能區分究竟是不是pizza的神經網路

資料:food-101，其中pizza的部分請參考該影片以剃除被錯誤分進pizza資料集的圖片這次我使用的是1000張pizza(刪除後不足的用自己寫的爬蟲抓圖片進來補) 而作為對照組的非pizza資料則從food-101的其他食物圖片中各選10張，總計1000張結果:收斂過程對於valid資料集滿不穩定的，最終大概收在accuracy 81~82% 設定的收斂條件為當valid_loss不再下降5次時學習率*0.2，不再下降超過10次停止 loss: https://imgur.com/yBcU0G3 accuracy: https://imgur.com/e6w1xM4 precision: https://imgur.com/Xmd8fdA -- https://i.imgur.com/h4Q0F04.jpg 9月23日發生大事了因為就在這天，加藤惠誕生了 https://i.imgur.com/H3RhXfJ.jpg --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.97.142 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1682761290.A.175.html ※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 17:49:30

1^F：→ lycantrope: CrossEntropyLoss,output應該給digits不用取softmax 04/29 17:57

謝謝大大提供意見試著照大大提供的資訊更改，雖然前幾個epoch裡loss有在下降，但是大概第4~5個epoch開始就一樣沒有再下降了 accuracy也是在50%左右變動大大會這麼建議應該是因為pytorch的crossentropyloss會在內部做一次softmax的緣故吧滿詭異的，剛剛試著用sgd但是取消softmax而直接用輸出來跑一開始以為沒有變化，但後來發現準確率有微幅上升 30個epochs後accuracy從50%升到61%

2^F：推 st1009: 我有用adam訓練resnet50並且成功，resnet內含有類似VGG的 04/29 18:15

3^F：推 st1009: 架構，且參數遠大於VGG 有需要我可以分享相關程式 04/29 18:16

可以的話超感謝，請問也是用pytorch寫的嗎? resnet是用來解決梯度消失，正好可以拿來對照，也很好奇分類項目到底會不會影響梯度消失的程度這幾天正在準備用整個food-101做分類訓練(101個分類)來比較結果 (準備aka把東西傳到google雲端，一個epoch跑20分鐘在自己電腦上有點吃不消，目前已經傳了第二天了) ※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 18:40:09

4^F：→ chang1248w: adam和大參數處不來純屬胡言亂語 04/29 18:59

5^F：→ chang1248w: 你要傳資料建議zip之後上kaggle，然後用colab或者 04/29 19:03

6^F：→ chang1248w: kaggle notebook 04/29 19:03

7^F：→ chang1248w: 分類項目比較會影響梯度的大概就imbalance label 04/29 19:06

8^F：→ chang1248w: 導致各類梯度期望值不同 04/29 19:07

9^F：→ chang1248w: sgd欠調教所以上下限高，adam懶人但發起顛來挺可怕的 04/29 19:12

10^F：→ chang1248w: 所以後來的論文都會上adam與sgd的比較 04/29 19:12

11^F：→ chang1248w: 算是一種穩定而強的背書 04/29 19:12

12^F：→ chang1248w: adam有聽說的問題就LLM在batchsize大於128之後，收斂 04/29 19:17

13^F：→ chang1248w: 速度沒啥差異，所以就有神仙提出了LAMB optimizer， 04/29 19:17

14^F：→ chang1248w: 然後在他們新的資料中心用十秒從頭訓練了一遍 04/29 19:17

15^F：→ fragmentwing: 感謝建議!!待會來試試看 04/29 19:19

16^F：→ fragmentwing: imbalance 的話雖然兩邊都是1000筆資料可能是我bat 04/29 19:19

17^F：→ fragmentwing: ch太小造成的? 04/29 19:19

18^F：→ chang1248w: 期望值一樣就沒問題 04/29 19:24

19^F：→ fragmentwing: 既然是胡言亂語待會回來修個文加註免得誤導別人 04/29 19:24

20^F：→ chang1248w: stack flow下面有指正 04/29 19:29

21^F：→ chang1248w: 看超過三年前的文章就要小心 04/29 19:29

22^F：→ fragmentwing: why doesn't the accuracy ……那篇沒錯吧我倒是看 04/29 20:22

23^F：→ fragmentwing: 到好幾個說改用sgd的建議但沒看到指正的評論還是大 04/29 20:22

24^F：→ fragmentwing: 大指的是要做weight initialization的事? 04/29 20:22

※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:26:43

25^F：推 st1009: 其實我也很想說他胡言亂語，我家resnet101也是用adam這還 04/29 21:30

26^F：推 st1009: 不夠大嗎，只是怕他說的大是ChatGPT之類的...... 04/29 21:30

27^F：→ st1009: 我的code不想公開，明天整理過，私信給你 04/29 21:31

謝謝大大，如果幾天後有找到真正的原因會再上來改文 ※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 21:51:36 ※ 編輯: fragmentwing (42.77.97.142 臺灣), 04/29/2023 22:32:50

28^F：推 iHaveAPen: 你如果了解一下adam在幹嘛就知道處不來有多荒唐 05/06 16:56

29^F：推 srarod: Adam收斂應該不會有大問題，應該優先看一下是不是框架有 02/02 13:24

30^F：→ srarod: 問題。Adam主要的問題應該是generalisation，要又快又泛 02/02 13:24

31^F：→ srarod: 化一點可以考慮AdamW 02/02 13:24

32^F：→ chang1248w: adam本身和generalization沒關係呀，adam+L2 penalty 05/16 00:02

33^F：→ chang1248w: 也是活的好好的，直到adamW跳出來說你們用的懲罰項會 05/16 00:02

34^F：→ chang1248w: 過懲罰 05/16 00:02

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

DataScience 板

[討論] VGG16和adam

熱門看板

贊助商連結