Soft_Job 板


LINE

看到下面有篇大神有討論到這次 Dcard ML 實習作業,因為沒有收到團隊的具體反饋 想和大家討論作業的狀況 題目是用結構資料,包含標題、看板資訊以及1-6小時的愛心數和評論數等等 來預測發文後 24 小時的愛心數 因為當時是期中,我只大概花了五天約二十個小時來做 我的作法大致如下 首先先用 XGBoost LightGBM 把量化資料做出 baseline 但沒辦法處理最重要的標題資訊 所以就直接拿 Huggingface BERT 來做 直接把資料餵進去的訓練是無法收斂的 後來也嘗試一些 Emsemble 和 training tricks 但也都沒辦法收斂,甚至達不到 baseline 的效果 認為是資料量的問題 到這邊沒什麼特別想法就直接寫報告了 我一直都主要是做 CV ,碩論跑去做 3D 對 NLP 非常不熟悉,不知道是否有漏掉關鍵操作 想請同有拿到作業的大神指點 謝謝 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.171.131.209 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1683998999.A.DBB.html
1F:推 changecandy: 你用BERT做了什麼以及什麼東西無法收斂? 05/14 03:05
任務如文中所述,是迴歸問題,目標是文章發文後24小時的愛心數 因為有中文標題,故直覺想到就是 BERT,將中文標題 tokenize 後 連同其他 feature 一同 concatenate,送入BERT直接 end2end 訓練出愛心數
2F:推 Tommnny: 這邊跪等神人分享 我們實驗室沒有人上 05/14 10:49
不知道實驗室內有沒有其他效果比較好的解法?
3F:推 Bujo: 這個案例建議使用LSTM序列 05/14 12:01
謝謝提供思路,但LSTM的話要如何考慮中文標題? 一樣使用word2vec或tokenizer嗎?
4F:推 cilovwx: 雖然我也沒上,但我自己還有另外萃取出判斷個版跟標題是 05/14 13:05
5F:→ cilovwx: 否有分類之類的feature,這兩項做關聯度分析,相關性也 05/14 13:05
6F:→ cilovwx: 不低 05/14 13:05
謝謝,確實我幾乎沒有做 feature engineering 是否方便請教後續是用什麼方法回歸出愛心數?
7F:推 DrTech: 你這樣 concatenate bert出來的維度那麼大,變成嚴重主導 05/14 14:36
8F:→ DrTech: 預測結果。但實際上 05/14 14:36
9F:→ DrTech: 但標題實際上根本不太會影響愛心與評論數。光看這點,就覺 05/14 14:38
10F:→ DrTech: 得你沒有從最基本的業務理解business understanding來解了 05/14 14:38
11F:→ DrTech: 。 05/14 14:38
12F:→ DrTech: 對了,資料量有多打? 資料量少,用複雜的模型根本沒用。 05/14 14:41
13F:→ DrTech: 資料量少的話,例如少於幾萬筆,對標題做任何處理可能都沒 05/14 14:46
14F:→ DrTech: 太大意義。 05/14 14:46
15F:→ DrTech: 這題,愛心數,評論數的特徵,相較於標題,標題絕對是雜訊 05/14 14:48
16F:→ DrTech: 。 05/14 14:48
17F:→ DrTech: HuggingFace tokenizer出來的標題維度很大的,只會讓標題 05/14 14:51
18F:→ DrTech: 雜訊主導一切。當然沒辦法收斂,很正常。 05/14 14:51
19F:→ DrTech: 資料量確實是問題。但人是否會根據標題就評論或點愛心,是 05/14 14:58
20F:→ DrTech: 你優先需要思考到的。 05/14 14:58
謝謝DrTech大的回復,tokenizer出來的embeddings我是有再downsampling的 當時也有考慮到這件事情,我也測試過downsample到4 - 16或其他一些奇淫巧技 也有對tokenizer做regularization等等,但對訓練幫助都不大 至於標題是否影響愛心數,確實實際上不一定 但該資料集提供的特徵數很少,其餘大多都是scalar 相信他們一定希望受試者去分析標題,當然處理整個標題可能不是個好辦法 1-6小時愛心數與24小時愛心數的相關性非常高 故我也在BERT之中嘗試建立使用這些高相關feature的MLP迴歸模型 以及和 XGBoost LightGBM 的 Ensemble 但對訓練並無明顯益處 我在寫這份測驗的時候,並不覺得量化結果會多好,因為僅有約五萬筆資料(文章) 而同時也要展現工程能力,譬如我用 Pytorch-lightning 架構整個 training, monitoring, evaluation pipeline 實作上的能力可能會區分我與其他一部分的面試者 但結果看來可能是有大神直接幹出很好的模型和訓練結果 後續評分項如解題思路、報告呈現和實作能力都沒有被考量了 才很好奇進入面試的大神是怎麼得出很好的預測方法的 感謝您的回覆 ※ 編輯: Sixigma (118.171.131.209 臺灣), 05/14/2023 16:03:47
21F:推 cilovwx: 我自己對於標題的作法是單純直接用snownlp去做sentiment 05/14 16:44
22F:→ cilovwx: polarity 而已,因為我自己認為標題其實只是吸引大家點 05/14 16:44
23F:→ cilovwx: 進去的機率,但按愛心的數量跟內容比較有相關。我的model 05/14 16:44
24F:→ cilovwx: 部分,我記得我一開始用xgboost效果不是很好,所以我後 05/14 16:44
25F:→ cilovwx: 來改用SVR跟一個我自己建的NN模型。但是我那時候也在準 05/14 16:44
26F:→ cilovwx: 備其他事情,所以好像也沒有fine-tuned 得很好 05/14 16:44
27F:推 hsuchengmath: 遇到這種 一定是先做基本的統計分析啊,先看 24小 05/14 17:01
28F:→ hsuchengmath: 時愛心數的分佈,然後分成 多愛心數 和 少愛心數的 05/14 17:01
29F:→ hsuchengmath: ,然後看哪些特徵 是有用的,最後才建模啊,別在直 05/14 17:01
30F:→ hsuchengmath: 接套膜了,不會進步的xdd 05/14 17:01
31F:推 DrTech: 謝謝你,長文那麼仔細回應互動喔 05/14 17:54
32F:→ changecandy: 直接使用BERT做預測的確是個挑戰,原因有很多就不展 05/14 18:43
33F:→ changecandy: 開了,但你可以考慮換個用法,例如把BERT基於文字所 05/14 18:43
34F:→ changecandy: 預測的分數當成你主要預測模型的其中一項特徵,這樣 05/14 18:43
35F:→ changecandy: 也算是引入文字資訊了。 05/14 18:43
36F:噓 Matz: 去鴻海第一年150沒問題 05/14 21:13
37F:推 abc21086999: 煩不煩哪裡都有鴻海 05/14 23:37
38F:推 email81227: 好奇用哪個BERT Pre-Training的版本? 05/15 03:09
39F:推 nistik84114: 中文如果沒在你用的bert的tokenizer裡會直接被忽略 05/15 06:11
40F:→ nistik84114: 喔 確認一下 05/15 06:11
41F:→ gamania0258: 話一堆時間寫作業還不給回饋 這間很像挺看得起自己的 05/15 16:04
42F:→ gamania0258: lul 只能說 沒上是好事 05/15 16:04
43F:推 T160: 我做法跟h大說的差不多XD 也是至少花了20小時以上時間搞這pr 05/15 22:35
44F:→ T160: oject 結果就一封罐頭感謝函 好歹也給個排名吧真的很沒誠意- 05/15 22:35
45F:→ T160: _- 05/15 22:35
46F:推 hia261321: 根據之前看同學打比賽 我猜可能有人自己去抓dcard的額 05/16 09:42
47F:→ hia261321: 外資料來訓練 資料量比一般人多很多的情況下隨便丟個 05/16 09:42
48F:→ hia261321: 模型都贏大家 05/16 09:42
49F:推 aacs0130: 推hsuchengmath跟DrTech 05/27 13:44







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP