作者Sixigma (六西格玛)

看板Soft_Job

标题

[讨论] 关於 Dcard ML 实习作业

时间Sun May 14 01:29:57 2023

看到下面有篇大神有讨论到这次 Dcard ML 实习作业，因为没有收到团队的具体反馈想和大家讨论作业的状况题目是用结构资料，包含标题、看板资讯以及1-6小时的爱心数和评论数等等来预测发文後 24 小时的爱心数因为当时是期中，我只大概花了五天约二十个小时来做我的作法大致如下首先先用 XGBoost LightGBM 把量化资料做出 baseline 但没办法处理最重要的标题资讯所以就直接拿 Huggingface BERT 来做直接把资料喂进去的训练是无法收敛的後来也尝试一些 Emsemble 和 training tricks 但也都没办法收敛，甚至达不到 baseline 的效果认为是资料量的问题到这边没什麽特别想法就直接写报告了我一直都主要是做 CV ，硕论跑去做 3D 对 NLP 非常不熟悉，不知道是否有漏掉关键操作想请同有拿到作业的大神指点谢谢 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.171.131.209 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1683998999.A.DBB.html

1^F：推 changecandy: 你用BERT做了什麽以及什麽东西无法收敛？ 05/14 03:05

任务如文中所述，是回归问题，目标是文章发文後24小时的爱心数因为有中文标题，故直觉想到就是 BERT，将中文标题 tokenize 後连同其他 feature 一同 concatenate，送入BERT直接 end2end 训练出爱心数

2^F：推 Tommnny: 这边跪等神人分享我们实验室没有人上 05/14 10:49

不知道实验室内有没有其他效果比较好的解法？

3^F：推 Bujo: 这个案例建议使用LSTM序列 05/14 12:01

谢谢提供思路，但LSTM的话要如何考虑中文标题？一样使用word2vec或tokenizer吗？

4^F：推 cilovwx: 虽然我也没上，但我自己还有另外萃取出判断个版跟标题是 05/14 13:05

5^F：→ cilovwx: 否有分类之类的feature，这两项做关联度分析，相关性也 05/14 13:05

6^F：→ cilovwx: 不低 05/14 13:05

谢谢，确实我几乎没有做 feature engineering 是否方便请教後续是用什麽方法回归出爱心数？

7^F：推 DrTech: 你这样 concatenate bert出来的维度那麽大，变成严重主导 05/14 14:36

8^F：→ DrTech: 预测结果。但实际上 05/14 14:36

9^F：→ DrTech: 但标题实际上根本不太会影响爱心与评论数。光看这点，就觉 05/14 14:38

10^F：→ DrTech: 得你没有从最基本的业务理解business understanding来解了 05/14 14:38

11^F：→ DrTech: 。 05/14 14:38

12^F：→ DrTech: 对了，资料量有多打？资料量少，用复杂的模型根本没用。 05/14 14:41

13^F：→ DrTech: 资料量少的话，例如少於几万笔，对标题做任何处理可能都没 05/14 14:46

14^F：→ DrTech: 太大意义。 05/14 14:46

15^F：→ DrTech: 这题，爱心数，评论数的特徵，相较於标题，标题绝对是杂讯 05/14 14:48

16^F：→ DrTech: 。 05/14 14:48

17^F：→ DrTech: HuggingFace tokenizer出来的标题维度很大的，只会让标题 05/14 14:51

18^F：→ DrTech: 杂讯主导一切。当然没办法收敛，很正常。 05/14 14:51

19^F：→ DrTech: 资料量确实是问题。但人是否会根据标题就评论或点爱心，是 05/14 14:58

20^F：→ DrTech: 你优先需要思考到的。 05/14 14:58

谢谢DrTech大的回复，tokenizer出来的embeddings我是有再downsampling的当时也有考虑到这件事情，我也测试过downsample到4 - 16或其他一些奇淫巧技也有对tokenizer做regularization等等，但对训练帮助都不大至於标题是否影响爱心数，确实实际上不一定但该资料集提供的特徵数很少，其余大多都是scalar 相信他们一定希望受试者去分析标题，当然处理整个标题可能不是个好办法 1-6小时爱心数与24小时爱心数的相关性非常高故我也在BERT之中尝试建立使用这些高相关feature的MLP回归模型以及和 XGBoost LightGBM 的 Ensemble 但对训练并无明显益处我在写这份测验的时候，并不觉得量化结果会多好，因为仅有约五万笔资料(文章) 而同时也要展现工程能力，譬如我用 Pytorch-lightning 架构整个 training, monitoring, evaluation pipeline 实作上的能力可能会区分我与其他一部分的面试者但结果看来可能是有大神直接干出很好的模型和训练结果後续评分项如解题思路、报告呈现和实作能力都没有被考量了才很好奇进入面试的大神是怎麽得出很好的预测方法的感谢您的回覆 ※ 编辑: Sixigma (118.171.131.209 台湾), 05/14/2023 16:03:47

21^F：推 cilovwx: 我自己对於标题的作法是单纯直接用snownlp去做sentiment 05/14 16:44

22^F：→ cilovwx: polarity 而已，因为我自己认为标题其实只是吸引大家点 05/14 16:44

23^F：→ cilovwx: 进去的机率，但按爱心的数量跟内容比较有相关。我的model 05/14 16:44

24^F：→ cilovwx: 部分，我记得我一开始用xgboost效果不是很好，所以我後 05/14 16:44

25^F：→ cilovwx: 来改用SVR跟一个我自己建的NN模型。但是我那时候也在准 05/14 16:44

26^F：→ cilovwx: 备其他事情，所以好像也没有fine-tuned 得很好 05/14 16:44

27^F：推 hsuchengmath: 遇到这种一定是先做基本的统计分析啊，先看 24小 05/14 17:01

28^F：→ hsuchengmath: 时爱心数的分布，然後分成多爱心数和少爱心数的 05/14 17:01

29^F：→ hsuchengmath: ，然後看哪些特徵是有用的，最後才建模啊，别在直 05/14 17:01

30^F：→ hsuchengmath: 接套膜了，不会进步的xdd 05/14 17:01

31^F：推 DrTech: 谢谢你，长文那麽仔细回应互动喔 05/14 17:54

32^F：→ changecandy: 直接使用BERT做预测的确是个挑战，原因有很多就不展 05/14 18:43

33^F：→ changecandy: 开了，但你可以考虑换个用法，例如把BERT基於文字所 05/14 18:43

34^F：→ changecandy: 预测的分数当成你主要预测模型的其中一项特徵，这样 05/14 18:43

35^F：→ changecandy: 也算是引入文字资讯了。 05/14 18:43

36^F：嘘 Matz: 去鸿海第一年150没问题 05/14 21:13

37^F：推 abc21086999: 烦不烦哪里都有鸿海 05/14 23:37

38^F：推 email81227: 好奇用哪个BERT Pre-Training的版本？ 05/15 03:09

39^F：推 nistik84114: 中文如果没在你用的bert的tokenizer里会直接被忽略 05/15 06:11

40^F：→ nistik84114: 喔确认一下 05/15 06:11

41^F：→ gamania0258: 话一堆时间写作业还不给回馈这间很像挺看得起自己的 05/15 16:04

42^F：→ gamania0258: lul 只能说没上是好事 05/15 16:04

43^F：推 T160: 我做法跟h大说的差不多XD 也是至少花了20小时以上时间搞这pr 05/15 22:35

44^F：→ T160: oject 结果就一封罐头感谢函好歹也给个排名吧真的很没诚意- 05/15 22:35

45^F：→ T160: _- 05/15 22:35

46^F：推 hia261321: 根据之前看同学打比赛我猜可能有人自己去抓dcard的额 05/16 09:42

47^F：→ hia261321: 外资料来训练资料量比一般人多很多的情况下随便丢个 05/16 09:42

48^F：→ hia261321: 模型都赢大家 05/16 09:42

49^F：推 aacs0130: 推hsuchengmath跟DrTech 05/27 13:44

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

[讨论] 关於 Dcard ML 实习作业

热门看板

赞助商连结