作者lirpassmore (里尔-帕斯魔)
看板DataScience
标题[问题] NLP跑BERT要什麽样的机器才够?
时间Wed Feb 9 02:05:06 2022
文组PM刚接触NLP,不懂机器的规格,但是之前上课的讲师有提到一般小企业要短时间得到BERT的输出结果不太可能,因为成本太高,但是有听没有懂。
请问为什麽?BERT真的很吃电还是买这个软体很贵?
求大神解释…GOOGLE都是一堆程式码看不懂…
-----
Sent from JPTT on my iPhone
--
背叛的滋味
大概就像精液吧
淡淡的没滋没味却能教人呕吐
咬紧牙关吞下去也就没什麽了
真的就没什麽了...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.83.33 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1644343510.A.CC2.html
1F:推 OnePiecePR: 两三年前看过新闻、训练 bert large 只要一个小时… 02/09 08:37
2F:→ OnePiecePR: 但是需要大约nvidia v100的1000 个gpu, 如果是一张 v 02/09 08:37
3F:→ OnePiecePR: 100有16个 gpu, 略估是60张, 一张 如果1000美金… 02/09 08:37
4F:→ OnePiecePR: 不过、我们应该不需要从头开始训练 02/09 08:39
5F:推 ILYY: BERT如果用在一般应用只要Fine Tune 用一般显卡就可以了 02/09 08:54
6F:→ ILYY: 没有必要的话不用重头训练 02/09 08:54
7F:→ chang1248w: 最近的纪录好像两分钟 02/09 09:59
8F:→ chang1248w: bert有放出参数啊,单就预测一张1060应该十五秒就可 02/09 10:07
9F:→ chang1248w: 以把一段文章转成向量。 02/09 10:07
10F:→ chang1248w: 但要从零开始训练出bert,单就电费就要7000美 02/09 10:10
11F:→ chang1248w: 资料集34亿个词,70GB以上 02/09 10:19
12F:→ chang1248w: 好在这类大模型都有公开已经训练好的模型参数,像上 02/09 10:24
13F:→ chang1248w: 面讲的通常只需要在训练好的模型後面加两层神经网路 02/09 10:24
14F:→ chang1248w: 去适应你的任务,就能有可接受的结果了 02/09 10:24
15F:→ chang1248w: 这样大概一张2080就能跑 02/09 10:25
16F:推 penniless: fasttext了解一下,便宜好用 02/09 16:38
17F:推 peter308: 国高那边要不要试看看? 02/11 12:32
18F:→ peter308: 他们的Taiwania2 至少会有1000颗GPU吧? 02/11 12:33
19F:推 KindWei: 很快的 只要找你们应用场域的 pretrain bert embedding ( 02/11 20:58
20F:→ KindWei: e.g. FinBERT) 甚至不用fine tune 就有不错的效果了 02/11 20:58
21F:推 Bujo: 只要拿现成的模型来训练你的资料就好,然後再设计你的输出 02/12 22:05
22F:推 hsuchengmath: 通常是拿pretrain好的bert encoder来使用,基本的be 03/15 08:07
23F:→ hsuchengmath: rt model的参数数量使用空间为400M, 你可以预留2G 03/15 08:08
24F:→ hsuchengmath: 的记忆体 比较保险 03/15 08:08