作者lirpassmore (里爾-帕斯魔)
看板DataScience
標題[問題] NLP跑BERT要什麼樣的機器才夠?
時間Wed Feb 9 02:05:06 2022
文組PM剛接觸NLP,不懂機器的規格,但是之前上課的講師有提到一般小企業要短時間得到BERT的輸出結果不太可能,因為成本太高,但是有聽沒有懂。
請問為什麼?BERT真的很吃電還是買這個軟體很貴?
求大神解釋…GOOGLE都是一堆程式碼看不懂…
-----
Sent from JPTT on my iPhone
--
背叛的滋味
大概就像精液吧
淡淡的沒滋沒味卻能教人嘔吐
咬緊牙關吞下去也就沒什麼了
真的就沒什麼了...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.83.33 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1644343510.A.CC2.html
1F:推 OnePiecePR: 兩三年前看過新聞、訓練 bert large 只要一個小時… 02/09 08:37
2F:→ OnePiecePR: 但是需要大約nvidia v100的1000 個gpu, 如果是一張 v 02/09 08:37
3F:→ OnePiecePR: 100有16個 gpu, 略估是60張, 一張 如果1000美金… 02/09 08:37
4F:→ OnePiecePR: 不過、我們應該不需要從頭開始訓練 02/09 08:39
5F:推 ILYY: BERT如果用在一般應用只要Fine Tune 用一般顯卡就可以了 02/09 08:54
6F:→ ILYY: 沒有必要的話不用重頭訓練 02/09 08:54
7F:→ chang1248w: 最近的紀錄好像兩分鐘 02/09 09:59
8F:→ chang1248w: bert有放出參數啊,單就預測一張1060應該十五秒就可 02/09 10:07
9F:→ chang1248w: 以把一段文章轉成向量。 02/09 10:07
10F:→ chang1248w: 但要從零開始訓練出bert,單就電費就要7000美 02/09 10:10
11F:→ chang1248w: 資料集34億個詞,70GB以上 02/09 10:19
12F:→ chang1248w: 好在這類大模型都有公開已經訓練好的模型參數,像上 02/09 10:24
13F:→ chang1248w: 面講的通常只需要在訓練好的模型後面加兩層神經網路 02/09 10:24
14F:→ chang1248w: 去適應你的任務,就能有可接受的結果了 02/09 10:24
15F:→ chang1248w: 這樣大概一張2080就能跑 02/09 10:25
16F:推 penniless: fasttext了解一下,便宜好用 02/09 16:38
17F:推 peter308: 國高那邊要不要試看看? 02/11 12:32
18F:→ peter308: 他們的Taiwania2 至少會有1000顆GPU吧? 02/11 12:33
19F:推 KindWei: 很快的 只要找你們應用場域的 pretrain bert embedding ( 02/11 20:58
20F:→ KindWei: e.g. FinBERT) 甚至不用fine tune 就有不錯的效果了 02/11 20:58
21F:推 Bujo: 只要拿現成的模型來訓練你的資料就好,然後再設計你的輸出 02/12 22:05
22F:推 hsuchengmath: 通常是拿pretrain好的bert encoder來使用,基本的be 03/15 08:07
23F:→ hsuchengmath: rt model的參數數量使用空間為400M, 你可以預留2G 03/15 08:08
24F:→ hsuchengmath: 的記憶體 比較保險 03/15 08:08