Soft_Job 板


LINE

※ 引述《gaymay5566 (feeling很重要)》之銘言: : 中央研究院詞庫小組(CKIP) : 中研院資訊所、語言所於民國75年合作成立 : 前天釋出可以商用的繁中大型語言模型(LLM) : CKIP-Llama-2-7b : 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 : 再補強繁體中文的處理能力 : 參數量達70億 : 模型可應用於各種領域 : 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 : 但實際測試後 : https://i.imgur.com/phwhfcl.png : https://i.imgur.com/O1P6HpS.png : https://i.imgur.com/cMnCbI8.png : 測試網頁:https://reurl.cc/q0rbqn : 拿這種東西出來交作業 太扯了吧 : 根本就是簡體直接轉繁體而已! : 中研院資訊所耶 拿這種軟體來騙 : 更新:被發現後 悄悄地撤下來了 : https://i.imgur.com/sy7rLgt.png 小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。 主要卡在三方面: 1.資料面,會卡什麼?: 並不是像版友們說的:繁體中文語料過少, 這根本不是一開始會遇到的問題。 光是 Common Crawl 真的有人去看繁體中文的量有多大嗎? 有人願意像Meta一樣去處理清洗資料後再去訓練嗎? 光是處理資料,所需的硬體採購, 大概要到一億新台幣來建置機房。 這還是稍微能用而已。 繁體中文資料難蒐集根本是假議題。 你的公司,沒錢買設備,沒資源 不願意讓你投幾億成本處理清洗資料才是事實。 我只看過中研院與聯發科之前的Bloom-zh-3B論文。光是他們這點就卡住了。 資料只能用玩具級的做法來做。 到處砍,到處刪CC的資料。 而且該論文也說了,自己只是 fine-tune別人的Bloomz 模型,不是從新訓練。 嗯,光是模型大小,1B1或3B的,聯發科語中研院就"沒有能力"重新訓練了好嗎。 看了 只fine-tune LLaMA-2-7B這種等級的模型。 大概也很容易說明了,硬體經費根本不足。 這種經費會卡到的不是繁體語料不足, 而是根本沒機器或資源給你清洗處理資料。 2. 訓練模型會先卡什麼? 目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。 都是基於LLaMA2上去 fine-tune的。 所以模型都是 7B 13B 70B大小。 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已, 完全沒有任何技術門檻。 (只有誰願意採購幾千萬硬體的門檻而已) 所有不拿大量通用資料,只 fine-tune少量資料 都有一個問題: 你可以over-fitting去嵌入所有你想要的模型輸出文字,但災難性遺忘所有通用知識。 同樣的,你可以控制模型永遠只輸出英文與繁體,只輸出台灣知識。但模型的通用性,絕對是差到不能用的。 所以台智雲,或中科院這種等級訓練出來的模型,通用型有待商確,可能問一些很基本的常識就掛了。 這不會先卡到中研院CKIP技術太差, (我是非常敬佩CKIP這幾年的努力的) 會先卡到的是: 是否願意投個幾十億建立基礎訓練平台而已。 如果沒看到一個像樣的訓練平台,千張 A100這種等級的。 短視到只願意fine-tune 輸出少數大家想看的輸出, 當然永遠災難性遺忘通用能力。 永遠沒有一個可商用,可通用的機會。 當然也可以用雲計算租GPU,但是費用也不便宜,沒丟個幾億都是不夠的。 國家要給中研院幾個億去玩LLM, 會先被輿論幹翻吧。 3.人才面 台灣並沒有很多人在真正訓練/微調LLM。 你去看各種AI研討會,或所謂都LLM專家,幾乎都是在吹自己的prompt如何試錯。 在吹自己怎麼用OpenAI的API。 其實人才的建立,最先卡的也不是沒錢。 中國人,一堆只有幾萬元台幣的消費級顯卡的人,都在fine-tune LLM了,其實買個6萬台幣的電競筆電也能做很多事情了。但台灣就是沒這種風氣。 在台灣各種專業研討會,做prompt trick的人,比傻傻的在處理資料,training/fine-tune模型的人,紅很多。人才與風氣走偏了。 能用 prompt 就能獲得大量經費,成為專家,誰願意研發training/fine-tune技術。 結論: 小弟是很看好中研院的能力,可惜整個台灣AI風氣,與商業玩法,技術再強的人,大概都難以發揮。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.54.199 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1696834412.A.CAF.html
1F:推 luckyalbert: 數發部那兩百多億真的不知道在衝三小用的 10/09 14:59
2F:推 rabbitu04: 都可以花十幾億弄個不能用的球場了 我們國家很有錢的 10/09 15:01
3F:→ rabbitu04: 黨要不要而已 10/09 15:01
4F:推 NDark: 推 10/09 15:11
5F:→ qwas65166516: 不同預算直接比跟算營養午餐那套有啥差別,問題在 10/09 15:14
6F:→ qwas65166516: 好多公司上層都在吹自家有微調大模型的能力,結果 10/09 15:14
7F:→ qwas65166516: 給的機器少得可憐,再怎麼厲害的人也無能為力 10/09 15:14
8F:推 qwas65166516: 如果能理解"給多少資源做出來就是多少能力"還好, 10/09 15:19
9F:→ qwas65166516: 怕的是你做出來老闆叫你跟OpenAI的大模型比 10/09 15:19
10F:推 drysor: 推~ 10/09 15:36
11F:推 luckyalbert: 很多公司房營收獲利來源就跟鬼島政府一樣短視近利, 10/09 15:40
12F:→ luckyalbert: 僅靠擁護某些人的利益卻想藉由搶/死他人來獲益,對這 10/09 15:40
13F:→ luckyalbert: 類人而言能做的僅次於一樣的無能及可悲。這年頭各種 10/09 15:40
14F:→ luckyalbert: 事情及衝突其實已經跟所有人告誡,從各面向觀之,只 10/09 15:40
15F:→ luckyalbert: 想賺自己的那些終究會葬送在自己的手裡,並且把整體 10/09 15:40
16F:→ luckyalbert: 環境弄成一攤死水 10/09 15:40
17F:→ luckyalbert: 出張嘴短視近利靠混及騙來的不代表你多厲害,反而還 10/09 15:42
18F:→ luckyalbert: 會有更多產業內外的人們,因你(這類人)在位而被害 10/09 15:42
19F:→ luckyalbert: @抱歉SE鍵盤太小打錯字是 公司方* 10/09 15:43
20F:→ luckyalbert: 那還不如不要無腦就跟著做下去更好 10/09 15:44
21F:推 Csongs: 台灣公司一堆稱有ai單位,也沒做出什麼東西嗎 10/09 16:00
22F:推 luckyalbert: 我原醫藥產業各式台外商政商及其各式職司就更不用提 10/09 16:02
23F:→ luckyalbert: ,那種情況比科技業能有準則判定立馬有成效數據孰優 10/09 16:02
24F:→ luckyalbert: 孰劣更明顯,而且動輒國際及國家資源獨寡占上兆耗費 10/09 16:02
25F:→ luckyalbert: 而言資源偷拐搶騙比科技業跟軟工還誇張的可怕,目前 10/09 16:02
26F:→ luckyalbert: 我原產業得志又得利的小人們佔多數,拿他們沒辦法而 10/09 16:02
27F:→ luckyalbert: 且他們各式所為還不會被評判攻擊的這麼明顯,反過來 10/09 16:02
28F:→ luckyalbert: 其他人還會被這些人評判,錯誤方變成對的那一方,對 10/09 16:02
29F:→ luckyalbert: 的變成錯誤方還要被要求檢討自己來證明這些人沒問題 10/09 16:02
30F:→ luckyalbert: ,更莫名奇妙,中研院現在那個生醫園區及我原產業那 10/09 16:02
31F:→ luckyalbert: 些人們,以後挖台灣的錢更是會用比這還誇張的莫名奇 10/09 16:02
32F:→ luckyalbert: 妙手腕,這模型看起來跟我原產業的人們相比真的小太 10/09 16:02
33F:→ luckyalbert: 多 10/09 16:02
34F:→ ttss4092: 台灣永遠只有第一波玩的到,後面要玩資本的永遠跟 10/09 16:06
35F:→ ttss4092: 不上 10/09 16:06
36F:推 luckyalbert: 資本跟國力蠻有關的,如果台灣自己又再內鬥內耗,這 10/09 16:20
37F:→ luckyalbert: 塊輸別人(尤其是對比歐美而言,他們的國力本來就很 10/09 16:20
38F:→ luckyalbert: 夠用)真的是正常 10/09 16:20
39F:推 MoonCode: 10/09 16:49
40F:推 drajan: 結論是人才很好 但沒錢?你知道數位發展部的年度預算有多 10/09 18:20
41F:→ drajan: 少嗎?我國政府有的是錢 只是不是拿來投資用的而已 10/09 18:20
42F:→ drajan: LLM也算是數位發展部的範疇吧? 10/09 18:20
43F:推 yiche: 協尋數發部… 10/09 19:15
44F:推 d8888: 10/09 20:14
45F:推 cobrasgo: 只覺得很悲哀 10/09 20:33
46F:噓 tomdavis: 倒果為因了 就是卡住 所以只能往prompt發展 10/09 20:43
47F:推 ouryouth: 推 10/09 20:44
48F:噓 tomdavis: 消費級顯卡fine tune LLM? 你當LLM多小... 10/09 20:46
49F:推 prag222: 現在平民老百姓要學的是如何應用AI.. 10/09 21:02
50F:推 johnbill: 資料處理費時燒錢 老闆不喜歡 嘻嘻 10/09 21:12
51F:→ milk830122: 有數發部這種頂級單位幹嘛搞研發 10/09 21:30
52F:推 htang17: 1080Ti就可以fine tune Bert啊,樓上在噓啥 10/09 21:39
53F:→ htang17: CKIP真的值得敬佩 10/09 21:40
54F:→ htang17: 希望那些酸言酸語不要影響到研發人員的心情 10/09 21:41
55F:推 NCUking: BERT 稱不上是 LLM 吧 10/09 21:50
56F:推 NCUking: 消費級顯卡可以搞 LoRA 啊 10/09 21:52
57F:推 fantasywater: 趨勢很明顯,學怎麼應用AI就好,以後AI底層架構會 10/09 21:56
58F:→ fantasywater: 跟程式語言底層一樣都是米國的知識產權。 10/09 21:56
59F:推 popeye0303: 抱歉 家裡失業6年 自稱理工醫文法商的精障最近燥期到 10/09 22:49
60F:→ popeye0303: 了 10/09 22:49
61F:→ popeye0303: https://bit.ly/3Q5LUxO 10/09 22:49
62F:推 k798976869: 有200多億可以租啊 不想而已 10/09 22:52
63F:推 dlshao: 沒人願意清資料政府不願意帶頭投資硬體 乖乖用對岸開源的 10/09 22:55
64F:→ dlshao: 的別幻想自建LLM了啦 10/09 22:55
65F:推 DaOppaiLoli: 台智雲那段我想提醒一下,一開始他們是用 BLOOM 176 10/09 22:58
66F:→ DaOppaiLoli: B 下去訓練,當時(推測是二月開始訓練) QLoRA 即 10/09 22:58
67F:→ DaOppaiLoli: 使還沒出來。雖然 BLOOM 架構與 Llama 架構差滿多的 10/09 22:58
68F:→ DaOppaiLoli: ,但我想 AFS 訓練千億級參數量模型的能力應該還是 10/09 22:58
69F:→ DaOppaiLoli: 有的。只是說台智雲這個系列的模型是閉源的,所以也 10/09 22:58
70F:→ DaOppaiLoli: 不會被大家拿來檢視與挑戰就是了。 10/09 22:58
71F:→ milk830122: 不用跟某人吵吧沒用 還有快去就醫 他在ptt各板被桶光 10/09 23:04
72F:→ milk830122: 不知道現實會做出甚麼XD 10/09 23:04
73F:→ DrTech: 台智雲前陣子發新聞稿,最新模型是用LLaMA 2+Qlora訓練的 10/09 23:44
74F:→ DrTech: 。 10/09 23:44
75F:→ DrTech: 另外,有人提到消費級顯卡無法fine-tune LLM,可以說為什 10/09 23:56
76F:→ DrTech: 麼嗎?。實際上 4090,筆電16G,桌電24G,真的夠fine-tune 10/09 23:57
77F:→ DrTech: 中研院這種等級(7B)的LLM 阿。 10/09 23:57
78F:→ DrTech: 消費級顯卡,硬是要訓練成大家期待的輸出,或政府愛看的輸 10/09 23:59
79F:→ DrTech: 出也沒什麼問題,只是通用性絕對不高而已。 10/09 23:59
80F:推 DaOppaiLoli: 那個應該是指說他們推出了 Llama2 繁中版,「另外」 10/10 00:01
81F:→ DaOppaiLoli: 還提供了 PEFT 訓練方法可供選擇,但是並沒有明確指 10/10 00:01
82F:→ DaOppaiLoli: 出這些繁中版的模型是使用 LoRA 訓練的。但我有朋友 10/10 00:01
83F:→ DaOppaiLoli: 用過 AFS Demo,當時 FFM 176B 也是 Full Fine-tuni 10/10 00:01
84F:→ DaOppaiLoli: ng,感覺沒什麼道理參數量少了反而倒退嚕。不過他們 10/10 00:01
85F:→ DaOppaiLoli: 是主打算力平台,模型的提供並不是真正的重點,只是 10/10 00:01
86F:→ DaOppaiLoli: 讓客戶有比較多選擇而已。 10/10 00:01
87F:→ DaOppaiLoli: 新聞稿參考 10/10 00:01
88F:→ DaOppaiLoli: https://tinyurl.com/2wzxxyx9 10/10 00:01
89F:推 sumsum: 天才IT大臣除了租辦公室到底都做惹啥ㄚ 10/10 00:06
90F:推 alan5: 房價那麼貴公司是怎麼買機房放機器 10/10 00:19
91F:推 luckyalbert: LoRA基本到連我這外行人都會xD 10/10 00:47
92F:→ luckyalbert: 我在各板遇到的各式ID中有幾個神經病真的不知道誰家 10/10 00:51
93F:→ luckyalbert: 養著的長期發瘋抹黑跟騷誹謗造謠貼標說謊人身攻擊站 10/10 00:51
94F:→ luckyalbert: 方放任這些神經病在發瘋,真不知道這些小人們到底都 10/10 00:51
95F:→ luckyalbert: 是誰家給錢養著的瘋子有病的貼別人有病,沒病的路人 10/10 00:51
96F:→ luckyalbert: 正常平台國家學術資源使用者你我被洗成有病,噁爛到 10/10 00:51
97F:→ luckyalbert: 炸 10/10 00:51
98F:→ ccas: 其實在中研院說要自己弄的時候,大家就在說不可能了 10/10 05:24
99F:→ ccas: 現在只是醜婦見家翁而已,沒有多少人真的期待那一點預算就作 10/10 05:25
100F:→ ccas: 出來一套跟別人百倍、千倍預算相比的吧? 10/10 05:25
101F:推 genic: 天才IT 大臣加上幾百億的預算你跟我說沒有錢沒有人 10/10 08:43
102F:推 tommytyc: 推 10/10 09:31
103F:推 yuinami: 推 10/10 09:39
104F:推 francej: 問題是真投了幾百億 幾千億 也賺不了錢 10/10 09:48
105F:→ francej: 台灣還是專心做GPU硬體生產就好 10/10 09:49
106F:→ francej: 與其把資源放在搞沒錢途的AI 還不如把錢投注在硬體架構 10/10 09:50
107F:→ francej: 要說聯發科哪天能分杯羹Nvidia的市場 還比較能想像 10/10 09:53
108F:推 Lhmstu: 把數發的200億移過來用不就好了?200億應該夠了吧 10/10 10:30
109F:推 DellSale999: 這才是台灣的價值 10/10 11:02
110F:→ GrayHS: 黨不喜歡有人說實話 10/10 11:05
111F:推 w28103566: 先裝潢再說 10/10 11:08
112F:推 WaterLengend: 有錢但是不分你啊 10/10 12:06
113F:推 markbex: 推說明 AI基礎建設就是砸錢 政府有沒有決心去推很重要 10/10 12:11
114F:推 jack529: 現在的政府不用想了吧,國家從上到下都在短視近利 10/10 12:32
115F:→ k798976869: 不用幻想文組法律系當頭的政府有啥撈快錢之外的目標惹 10/10 16:24
116F:→ k798976869: 啦 經濟部還想補助中小ic設計商先進製成總經費8億 是 10/10 16:24
117F:→ k798976869: 要笑死人 老人只能玩蓋蚊子館撈錢啦 10/10 16:24
118F:推 Belieeve: 推分析,另真的不管錢投在哪裡就是會有帳號冒出來罵翻, 10/10 16:48
119F:→ Belieeve: 看推文就知道 10/10 16:48
120F:推 markbex: 每次提到「政府」就有人來亂酸...好好討論不行嗎 10/10 19:03
121F:→ milk830122: 好好面對現實不行嗎 為什麼會有人講政府又不是無中生 10/10 19:20
122F:→ milk830122: 有 10/10 19:20
123F:推 fallcolor: clean data需要億級硬體設備可以分享一下原因嗎 10/10 21:12
124F:→ fallcolor: 是後處理的資料存儲問題嗎 10/10 21:12
125F:推 alex780312: 在公司內很難說服主管像中國那樣做資料集和開源模型 10/10 22:13
126F:→ alex780312: ,然後別人一推出新模型就開始瞎緊張,完全沒有長期 10/10 22:13
127F:→ alex780312: 規劃的能力 10/10 22:13
128F:推 opencat: 對岸有國產搜尋引擎或問答平台 比較容易累積資料 10/10 23:27
129F:→ opencat: 台灣的玩法應該是不會重頭弄 只能外包請人做資料審查 10/10 23:31
130F:推 cancelpc: 蛋塔一樣,外面紅啥,政府就跟著喊,然後補助一堆學院, 10/11 06:26
131F:→ cancelpc: 大量產出紙上作業的人 10/11 06:26
132F:→ greenx: 看xx部 台灣不缺你說的這點小錢 用在哪而已 10/11 06:40
133F:推 neo5277: 這很台灣 10/11 07:45
134F:推 ko363630: 推分析 鬼島有鬼島的玩法 10/11 10:21
135F:推 sssyoyo: 200億拿去點麵線、裝潢、出國考察也不願意投資未來最重要 10/11 10:31
136F:→ sssyoyo: 的AI,這就是鬼島玩法 10/11 10:31
137F:推 IMBonjwa: 不同意樓上。原Po第二點就有提到 10/11 13:16
138F:→ IMBonjwa: 是否跳進這個燒錢的軍備競賽而排擠其他項目,才是真的 10/11 13:19
139F:→ IMBonjwa: 命題 10/11 13:19
140F:推 elves: 所以有人說得出兩百多億具體端了什麼成果嗎 10/11 13:41
141F:→ francej: 真的很難想像 台灣本土LLM 能賺到甚麼錢 10/11 14:36
142F:→ francej: 對岸不會用 歐美日也不會想用 只能島內自己用 10/11 14:37
143F:→ francej: 這樣講起來 200億拿去點麵線 至少能讓肚子吃飽 是還比較 10/11 14:38
144F:→ francej: 實在 10/11 14:38
145F:推 hoesi: 實在個雕,點麵線已經有現成的外送app,你做一樣定位的東 10/11 15:45
146F:→ hoesi: 西幹嘛 10/11 15:45
147F:推 ko363630: 點外送不是就有現成app了? 10/11 16:21
148F:推 Mchord: 就是因為有現成的他們才想做啊XD 10/12 10:03
149F:推 knme: 推推 之前碩班做相關研究 後來因硬體資源不足就乖乖去業界 10/12 12:39
150F:→ knme: 學術單位做研究本來就是針對某環節進行優化改善而已 10/12 12:40
151F:推 wayne0530: 同意,問題是真的有商業價值嗎? 10/14 00:15
152F:→ hillhsu: 一直扯數位部,到底是有多低x?? 10/17 18:04







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:iOS站內搜尋

TOP