Soft_Job 板


LINE

: 题目是用结构资料,包含标题、看板资讯以及1-6小时的爱心数和评论数等等 : 来预测发文後 24 小时的爱心数 来云一下我可能会怎麽做 如果假设我没理解错误题目的话,应该基於给予的前六小时的资料, 去预测未来24小时候的爱心数吧? 首先这题目我可能就不会考虑用NLP来做处理,主要是资料量可能不足 再加上中文NLP来做除了麻烦外效果可能也不会太好 想法是有了1~6小时的爱心数跟评论量,预测未来24小时的爱心数 基本上标题文字的意义其实可能就不是那麽重大,有强烈特徵的可能只是一两个关键字 而且有了前六小时的数据,基本上不用标题也能够推估未来的数字 所以觉得这题比较难的是,你没有6小时之後的资料,所以很难预估一个趋势 (除非有给完整趋势资料) 因此我会将看板资讯转成单纯数字的Label, 或是可以取得与看版相关的人气值正规化後做代替 将标题做关键字提取,并且做文字云把重复的强烈关键字与留言爱心数做对应, 重新建一个特徵值 接下来就有完整的特徵值资料,做一下特徵值的关联性或是强度分析 挑几个觉得强烈的出来训练一个模型即可(ML与DL都可以) (应该用LSTM效果比较好) 基本上能简单做就不会想太复杂处理,单纯一个想法也确定可不可行,供大家讨论参考 -- 那片有座高塔哭着朝北方奔去的天空,是我此刻片寻不着的风景 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.166.82.176 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1684157729.A.940.html
1F:推 hsuchengmath: 为啥会没有24小时後的资料,dcard文章不是一大堆, 05/16 07:55
2F:→ hsuchengmath: 随便爬都有啊 05/16 07:55
我不知道他们题目有没有说可以拿外部资料,只为了符合游戏规则而已 如果是我理解这样,这题目其实比较有点类似工业界的生命预估
3F:推 oopFoo: 我也觉的是这个方向,但关键字应该也是重要,但关键字如何 05/16 07:56
4F:→ oopFoo: 提取,应该是dl训练出来的。我觉的这题关键是如何提取关键 05/16 07:57
5F:→ oopFoo: 字,不然有6小时的资料应该很容易预测24小时的爱心数。 05/16 07:58
6F:推 oopFoo: 而且给time series的资料,应该就是想用transformer 05/16 08:02
能简单就比较不会想复杂用,虽然不确定考官想要的方向是什麽
7F:→ DrTech: 5万笔资料用transformer 去over-fitting? 资料量那麽少, 05/16 11:10
8F:→ DrTech: 模型用那麽复杂,效果好也是运气 05/16 11:10
9F:→ DrTech: 没有对错,纯个人不同看法。 05/16 11:12
认同 ※ 编辑: EvilSD (59.120.53.15 台湾), 05/16/2023 12:23:10
10F:推 ekids1234: transformer 一般来说要到哪个数量级才勉强及格 ? 05/16 12:27
如果在NLP感觉至少也要数十万以上才够用 但目前的题目是只要抓标题,文本量很少因此我猜五万笔是足够的 只是如果今天拿去测外部资料会不会准,就不知道了
11F:推 oopFoo: 我猜现在所有人都在用bert/gpt,找intern应该也是想要延续 05/16 13:01
12F:→ oopFoo: 公司正在做的,transformer也许不是最适合这题,但可能是 05/16 13:01
13F:→ oopFoo: dcard想找的人。只是盲猜,提出来聊聊。面试,考题,机运 05/16 13:03
14F:→ oopFoo: 蛮重要的。 05/16 13:03
15F:推 oopFoo: 这种"标题"对"星星"的decoder应该很简易训练,反正资料少 05/16 13:12
的确考量考官想看的差异度会很大,有些考官喜欢看新东西新技术,有些考官喜欢实用性
16F:→ h920032: 用BOW就够了吧 05/16 13:38
真是怀念XD 但依我原先的想法用BOW应该就是最直接的了 ※ 编辑: EvilSD (59.120.53.15 台湾), 05/16/2023 14:01:23
17F:推 penniless: 挑一个预训练的中文模型,五万条fine tune transformer 05/17 13:58
18F:→ penniless: 很够了... 2023了没人在train from scratch 05/17 13:58
19F:嘘 brucetu: 你在讲什麽 自己改题目? 还没发文哪来的前六小时? 05/18 00:00
20F:→ DrTech: 用transformer,尤其是直接标题放进去train就是准备 over- 05/18 00:05
21F:→ DrTech: fitting啊,ML基本常识。 BERT Embedding+ 下游小模型,我 05/18 00:05
22F:→ DrTech: 还觉得稍微有点ML常识。 05/18 00:05
23F:→ DrTech: 这吴恩达的deep learning或各种ML经典教科书都有写吧。资 05/18 00:06
24F:→ DrTech: 料量少要用小模型。 05/18 00:06
25F:→ DrTech: 或者把 transformer或BERT的layer抽掉几层成为较小模型也 05/18 00:10
26F:→ DrTech: 可。用小模型是为了降低模型的Variance,这基本常识吧。 05/18 00:10
27F:→ DrTech: 这就是为什麽原PO用XGBoost LightGBM ,反而效果可能好 05/18 00:12
28F:推 oopFoo: 这就是很诡异的地方,现在用LLMs,用少少的data fine tune 05/18 08:49
29F:→ oopFoo: 效果奇异的好。也许LLMs里的"知识"够多,adaptation效果 05/18 08:50
30F:→ oopFoo: 奇佳。在twitter上看到一些专研NLP的学者有点垂头丧气,说 05/18 08:52
31F:→ oopFoo: 以後不用研究了 05/18 08:52
32F:→ brucetu: 这也不是今年才这样 没人在from scratch了 05/18 20:04
33F:→ DrTech: 你们都来乱的吧,你去看各种task排行榜,paperwithcode排 05/21 13:46
34F:→ DrTech: 行榜,有哪个top-3 solution是LLM+fine-tune?完全没有。 05/21 13:46
35F:→ DrTech: 身为工程人员,讲科学证据吧。不要靠幻想感受。 05/21 13:46
36F:→ DrTech: 而且LLM跑一个完整预测结果,正常机器,要数秒。用怎麽可 05/21 13:48
37F:→ DrTech: 能上正常有流量的产品。 05/21 13:48
38F:→ DrTech: 效果好要讲科学证据啦,公开资料集测一下,不要靠猜测或个 05/21 13:50
39F:→ DrTech: 人感受。 05/21 13:50







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP