Soft_Job 板


LINE

※ 引述《gaymay5566 (feeling很重要)》之铭言: : 中央研究院词库小组(CKIP) : 中研院资讯所、语言所於民国75年合作成立 : 前天释出可以商用的繁中大型语言模型(LLM) : CKIP-Llama-2-7b : 以商用开源模型 Llama-2-7b 以及 Atom-7b 为基础 : 再补强繁体中文的处理能力 : 参数量达70亿 : 模型可应用於各种领域 : 包括文案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等 : 但实际测试後 : https://i.imgur.com/phwhfcl.png
: https://i.imgur.com/O1P6HpS.png
: https://i.imgur.com/cMnCbI8.png
: 测试网页:https://reurl.cc/q0rbqn : 拿这种东西出来交作业 太扯了吧 : 根本就是简体直接转繁体而已! : 中研院资讯所耶 拿这种软体来骗 : 更新:被发现後 悄悄地撤下来了 : https://i.imgur.com/sy7rLgt.png
小弟待的公司,非学术单位, 可能是台湾硬体计算资源稍微丰富的公司。 公司投入在买GPU 应该近亿了。 自己也研究了几个月 fine-tune 方法。 不过,还是没足够能力与资源训练正常的LLM。 主要卡在三方面: 1.资料面,会卡什麽?: 并不是像版友们说的:繁体中文语料过少, 这根本不是一开始会遇到的问题。 光是 Common Crawl 真的有人去看繁体中文的量有多大吗? 有人愿意像Meta一样去处理清洗资料後再去训练吗? 光是处理资料,所需的硬体采购, 大概要到一亿新台币来建置机房。 这还是稍微能用而已。 繁体中文资料难蒐集根本是假议题。 你的公司,没钱买设备,没资源 不愿意让你投几亿成本处理清洗资料才是事实。 我只看过中研院与联发科之前的Bloom-zh-3B论文。光是他们这点就卡住了。 资料只能用玩具级的做法来做。 到处砍,到处删CC的资料。 而且该论文也说了,自己只是 fine-tune别人的Bloomz 模型,不是从新训练。 嗯,光是模型大小,1B1或3B的,联发科语中研院就"没有能力"重新训练了好吗。 看了 只fine-tune LLaMA-2-7B这种等级的模型。 大概也很容易说明了,硬体经费根本不足。 这种经费会卡到的不是繁体语料不足, 而是根本没机器或资源给你清洗处理资料。 2. 训练模型会先卡什麽? 目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。 都是基於LLaMA2上去 fine-tune的。 所以模型都是 7B 13B 70B大小。 而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已, 完全没有任何技术门槛。 (只有谁愿意采购几千万硬体的门槛而已) 所有不拿大量通用资料,只 fine-tune少量资料 都有一个问题: 你可以over-fitting去嵌入所有你想要的模型输出文字,但灾难性遗忘所有通用知识。 同样的,你可以控制模型永远只输出英文与繁体,只输出台湾知识。但模型的通用性,绝对是差到不能用的。 所以台智云,或中科院这种等级训练出来的模型,通用型有待商确,可能问一些很基本的常识就挂了。 这不会先卡到中研院CKIP技术太差, (我是非常敬佩CKIP这几年的努力的) 会先卡到的是: 是否愿意投个几十亿建立基础训练平台而已。 如果没看到一个像样的训练平台,千张 A100这种等级的。 短视到只愿意fine-tune 输出少数大家想看的输出, 当然永远灾难性遗忘通用能力。 永远没有一个可商用,可通用的机会。 当然也可以用云计算租GPU,但是费用也不便宜,没丢个几亿都是不够的。 国家要给中研院几个亿去玩LLM, 会先被舆论干翻吧。 3.人才面 台湾并没有很多人在真正训练/微调LLM。 你去看各种AI研讨会,或所谓都LLM专家,几乎都是在吹自己的prompt如何试错。 在吹自己怎麽用OpenAI的API。 其实人才的建立,最先卡的也不是没钱。 中国人,一堆只有几万元台币的消费级显卡的人,都在fine-tune LLM了,其实买个6万台币的电竞笔电也能做很多事情了。但台湾就是没这种风气。 在台湾各种专业研讨会,做prompt trick的人,比傻傻的在处理资料,training/fine-tune模型的人,红很多。人才与风气走偏了。 能用 prompt 就能获得大量经费,成为专家,谁愿意研发training/fine-tune技术。 结论: 小弟是很看好中研院的能力,可惜整个台湾AI风气,与商业玩法,技术再强的人,大概都难以发挥。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.54.199 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1696834412.A.CAF.html
1F:推 luckyalbert: 数发部那两百多亿真的不知道在冲三小用的 10/09 14:59
2F:推 rabbitu04: 都可以花十几亿弄个不能用的球场了 我们国家很有钱的 10/09 15:01
3F:→ rabbitu04: 党要不要而已 10/09 15:01
4F:推 NDark: 推 10/09 15:11
5F:→ qwas65166516: 不同预算直接比跟算营养午餐那套有啥差别,问题在 10/09 15:14
6F:→ qwas65166516: 好多公司上层都在吹自家有微调大模型的能力,结果 10/09 15:14
7F:→ qwas65166516: 给的机器少得可怜,再怎麽厉害的人也无能为力 10/09 15:14
8F:推 qwas65166516: 如果能理解"给多少资源做出来就是多少能力"还好, 10/09 15:19
9F:→ qwas65166516: 怕的是你做出来老板叫你跟OpenAI的大模型比 10/09 15:19
10F:推 drysor: 推~ 10/09 15:36
11F:推 luckyalbert: 很多公司房营收获利来源就跟鬼岛政府一样短视近利, 10/09 15:40
12F:→ luckyalbert: 仅靠拥护某些人的利益却想藉由抢/死他人来获益,对这 10/09 15:40
13F:→ luckyalbert: 类人而言能做的仅次於一样的无能及可悲。这年头各种 10/09 15:40
14F:→ luckyalbert: 事情及冲突其实已经跟所有人告诫,从各面向观之,只 10/09 15:40
15F:→ luckyalbert: 想赚自己的那些终究会葬送在自己的手里,并且把整体 10/09 15:40
16F:→ luckyalbert: 环境弄成一摊死水 10/09 15:40
17F:→ luckyalbert: 出张嘴短视近利靠混及骗来的不代表你多厉害,反而还 10/09 15:42
18F:→ luckyalbert: 会有更多产业内外的人们,因你(这类人)在位而被害 10/09 15:42
19F:→ luckyalbert: @抱歉SE键盘太小打错字是 公司方* 10/09 15:43
20F:→ luckyalbert: 那还不如不要无脑就跟着做下去更好 10/09 15:44
21F:推 Csongs: 台湾公司一堆称有ai单位,也没做出什麽东西吗 10/09 16:00
22F:推 luckyalbert: 我原医药产业各式台外商政商及其各式职司就更不用提 10/09 16:02
23F:→ luckyalbert: ,那种情况比科技业能有准则判定立马有成效数据孰优 10/09 16:02
24F:→ luckyalbert: 孰劣更明显,而且动辄国际及国家资源独寡占上兆耗费 10/09 16:02
25F:→ luckyalbert: 而言资源偷拐抢骗比科技业跟软工还夸张的可怕,目前 10/09 16:02
26F:→ luckyalbert: 我原产业得志又得利的小人们占多数,拿他们没办法而 10/09 16:02
27F:→ luckyalbert: 且他们各式所为还不会被评判攻击的这麽明显,反过来 10/09 16:02
28F:→ luckyalbert: 其他人还会被这些人评判,错误方变成对的那一方,对 10/09 16:02
29F:→ luckyalbert: 的变成错误方还要被要求检讨自己来证明这些人没问题 10/09 16:02
30F:→ luckyalbert: ,更莫名奇妙,中研院现在那个生医园区及我原产业那 10/09 16:02
31F:→ luckyalbert: 些人们,以後挖台湾的钱更是会用比这还夸张的莫名奇 10/09 16:02
32F:→ luckyalbert: 妙手腕,这模型看起来跟我原产业的人们相比真的小太 10/09 16:02
33F:→ luckyalbert: 多 10/09 16:02
34F:→ ttss4092: 台湾永远只有第一波玩的到,後面要玩资本的永远跟 10/09 16:06
35F:→ ttss4092: 不上 10/09 16:06
36F:推 luckyalbert: 资本跟国力蛮有关的,如果台湾自己又再内斗内耗,这 10/09 16:20
37F:→ luckyalbert: 块输别人(尤其是对比欧美而言,他们的国力本来就很 10/09 16:20
38F:→ luckyalbert: 够用)真的是正常 10/09 16:20
39F:推 MoonCode: 10/09 16:49
40F:推 drajan: 结论是人才很好 但没钱?你知道数位发展部的年度预算有多 10/09 18:20
41F:→ drajan: 少吗?我国政府有的是钱 只是不是拿来投资用的而已 10/09 18:20
42F:→ drajan: LLM也算是数位发展部的范畴吧? 10/09 18:20
43F:推 yiche: 协寻数发部… 10/09 19:15
44F:推 d8888: 10/09 20:14
45F:推 cobrasgo: 只觉得很悲哀 10/09 20:33
46F:嘘 tomdavis: 倒果为因了 就是卡住 所以只能往prompt发展 10/09 20:43
47F:推 ouryouth: 推 10/09 20:44
48F:嘘 tomdavis: 消费级显卡fine tune LLM? 你当LLM多小... 10/09 20:46
49F:推 prag222: 现在平民老百姓要学的是如何应用AI.. 10/09 21:02
50F:推 johnbill: 资料处理费时烧钱 老板不喜欢 嘻嘻 10/09 21:12
51F:→ milk830122: 有数发部这种顶级单位干嘛搞研发 10/09 21:30
52F:推 htang17: 1080Ti就可以fine tune Bert啊,楼上在嘘啥 10/09 21:39
53F:→ htang17: CKIP真的值得敬佩 10/09 21:40
54F:→ htang17: 希望那些酸言酸语不要影响到研发人员的心情 10/09 21:41
55F:推 NCUking: BERT 称不上是 LLM 吧 10/09 21:50
56F:推 NCUking: 消费级显卡可以搞 LoRA 啊 10/09 21:52
57F:推 fantasywater: 趋势很明显,学怎麽应用AI就好,以後AI底层架构会 10/09 21:56
58F:→ fantasywater: 跟程式语言底层一样都是米国的知识产权。 10/09 21:56
59F:推 popeye0303: 抱歉 家里失业6年 自称理工医文法商的精障最近燥期到 10/09 22:49
60F:→ popeye0303: 了 10/09 22:49
61F:→ popeye0303: https://bit.ly/3Q5LUxO 10/09 22:49
62F:推 k798976869: 有200多亿可以租啊 不想而已 10/09 22:52
63F:推 dlshao: 没人愿意清资料政府不愿意带头投资硬体 乖乖用对岸开源的 10/09 22:55
64F:→ dlshao: 的别幻想自建LLM了啦 10/09 22:55
65F:推 DaOppaiLoli: 台智云那段我想提醒一下,一开始他们是用 BLOOM 176 10/09 22:58
66F:→ DaOppaiLoli: B 下去训练,当时(推测是二月开始训练) QLoRA 即 10/09 22:58
67F:→ DaOppaiLoli: 使还没出来。虽然 BLOOM 架构与 Llama 架构差满多的 10/09 22:58
68F:→ DaOppaiLoli: ,但我想 AFS 训练千亿级参数量模型的能力应该还是 10/09 22:58
69F:→ DaOppaiLoli: 有的。只是说台智云这个系列的模型是闭源的,所以也 10/09 22:58
70F:→ DaOppaiLoli: 不会被大家拿来检视与挑战就是了。 10/09 22:58
71F:→ milk830122: 不用跟某人吵吧没用 还有快去就医 他在ptt各板被桶光 10/09 23:04
72F:→ milk830122: 不知道现实会做出甚麽XD 10/09 23:04
73F:→ DrTech: 台智云前阵子发新闻稿,最新模型是用LLaMA 2+Qlora训练的 10/09 23:44
74F:→ DrTech: 。 10/09 23:44
75F:→ DrTech: 另外,有人提到消费级显卡无法fine-tune LLM,可以说为什 10/09 23:56
76F:→ DrTech: 麽吗?。实际上 4090,笔电16G,桌电24G,真的够fine-tune 10/09 23:57
77F:→ DrTech: 中研院这种等级(7B)的LLM 阿。 10/09 23:57
78F:→ DrTech: 消费级显卡,硬是要训练成大家期待的输出,或政府爱看的输 10/09 23:59
79F:→ DrTech: 出也没什麽问题,只是通用性绝对不高而已。 10/09 23:59
80F:推 DaOppaiLoli: 那个应该是指说他们推出了 Llama2 繁中版,「另外」 10/10 00:01
81F:→ DaOppaiLoli: 还提供了 PEFT 训练方法可供选择,但是并没有明确指 10/10 00:01
82F:→ DaOppaiLoli: 出这些繁中版的模型是使用 LoRA 训练的。但我有朋友 10/10 00:01
83F:→ DaOppaiLoli: 用过 AFS Demo,当时 FFM 176B 也是 Full Fine-tuni 10/10 00:01
84F:→ DaOppaiLoli: ng,感觉没什麽道理参数量少了反而倒退噜。不过他们 10/10 00:01
85F:→ DaOppaiLoli: 是主打算力平台,模型的提供并不是真正的重点,只是 10/10 00:01
86F:→ DaOppaiLoli: 让客户有比较多选择而已。 10/10 00:01
87F:→ DaOppaiLoli: 新闻稿参考 10/10 00:01
88F:→ DaOppaiLoli: https://tinyurl.com/2wzxxyx9 10/10 00:01
89F:推 sumsum: 天才IT大臣除了租办公室到底都做惹啥ㄚ 10/10 00:06
90F:推 alan5: 房价那麽贵公司是怎麽买机房放机器 10/10 00:19
91F:推 luckyalbert: LoRA基本到连我这外行人都会xD 10/10 00:47
92F:→ luckyalbert: 我在各板遇到的各式ID中有几个神经病真的不知道谁家 10/10 00:51
93F:→ luckyalbert: 养着的长期发疯抹黑跟骚诽谤造谣贴标说谎人身攻击站 10/10 00:51
94F:→ luckyalbert: 方放任这些神经病在发疯,真不知道这些小人们到底都 10/10 00:51
95F:→ luckyalbert: 是谁家给钱养着的疯子有病的贴别人有病,没病的路人 10/10 00:51
96F:→ luckyalbert: 正常平台国家学术资源使用者你我被洗成有病,恶烂到 10/10 00:51
97F:→ luckyalbert: 炸 10/10 00:51
98F:→ ccas: 其实在中研院说要自己弄的时候,大家就在说不可能了 10/10 05:24
99F:→ ccas: 现在只是丑妇见家翁而已,没有多少人真的期待那一点预算就作 10/10 05:25
100F:→ ccas: 出来一套跟别人百倍、千倍预算相比的吧? 10/10 05:25
101F:推 genic: 天才IT 大臣加上几百亿的预算你跟我说没有钱没有人 10/10 08:43
102F:推 tommytyc: 推 10/10 09:31
103F:推 yuinami: 推 10/10 09:39
104F:推 francej: 问题是真投了几百亿 几千亿 也赚不了钱 10/10 09:48
105F:→ francej: 台湾还是专心做GPU硬体生产就好 10/10 09:49
106F:→ francej: 与其把资源放在搞没钱途的AI 还不如把钱投注在硬体架构 10/10 09:50
107F:→ francej: 要说联发科哪天能分杯羹Nvidia的市场 还比较能想像 10/10 09:53
108F:推 Lhmstu: 把数发的200亿移过来用不就好了?200亿应该够了吧 10/10 10:30
109F:推 DellSale999: 这才是台湾的价值 10/10 11:02
110F:→ GrayHS: 党不喜欢有人说实话 10/10 11:05
111F:推 w28103566: 先装潢再说 10/10 11:08
112F:推 WaterLengend: 有钱但是不分你啊 10/10 12:06
113F:推 markbex: 推说明 AI基础建设就是砸钱 政府有没有决心去推很重要 10/10 12:11
114F:推 jack529: 现在的政府不用想了吧,国家从上到下都在短视近利 10/10 12:32
115F:→ k798976869: 不用幻想文组法律系当头的政府有啥捞快钱之外的目标惹 10/10 16:24
116F:→ k798976869: 啦 经济部还想补助中小ic设计商先进制成总经费8亿 是 10/10 16:24
117F:→ k798976869: 要笑死人 老人只能玩盖蚊子馆捞钱啦 10/10 16:24
118F:推 Belieeve: 推分析,另真的不管钱投在哪里就是会有帐号冒出来骂翻, 10/10 16:48
119F:→ Belieeve: 看推文就知道 10/10 16:48
120F:推 markbex: 每次提到「政府」就有人来乱酸...好好讨论不行吗 10/10 19:03
121F:→ milk830122: 好好面对现实不行吗 为什麽会有人讲政府又不是无中生 10/10 19:20
122F:→ milk830122: 有 10/10 19:20
123F:推 fallcolor: clean data需要亿级硬体设备可以分享一下原因吗 10/10 21:12
124F:→ fallcolor: 是後处理的资料存储问题吗 10/10 21:12
125F:推 alex780312: 在公司内很难说服主管像中国那样做资料集和开源模型 10/10 22:13
126F:→ alex780312: ,然後别人一推出新模型就开始瞎紧张,完全没有长期 10/10 22:13
127F:→ alex780312: 规划的能力 10/10 22:13
128F:推 opencat: 对岸有国产搜寻引擎或问答平台 比较容易累积资料 10/10 23:27
129F:→ opencat: 台湾的玩法应该是不会重头弄 只能外包请人做资料审查 10/10 23:31
130F:推 cancelpc: 蛋塔一样,外面红啥,政府就跟着喊,然後补助一堆学院, 10/11 06:26
131F:→ cancelpc: 大量产出纸上作业的人 10/11 06:26
132F:→ greenx: 看xx部 台湾不缺你说的这点小钱 用在哪而已 10/11 06:40
133F:推 neo5277: 这很台湾 10/11 07:45
134F:推 ko363630: 推分析 鬼岛有鬼岛的玩法 10/11 10:21
135F:推 sssyoyo: 200亿拿去点面线、装潢、出国考察也不愿意投资未来最重要 10/11 10:31
136F:→ sssyoyo: 的AI,这就是鬼岛玩法 10/11 10:31
137F:推 IMBonjwa: 不同意楼上。原Po第二点就有提到 10/11 13:16
138F:→ IMBonjwa: 是否跳进这个烧钱的军备竞赛而排挤其他项目,才是真的 10/11 13:19
139F:→ IMBonjwa: 命题 10/11 13:19
140F:推 elves: 所以有人说得出两百多亿具体端了什麽成果吗 10/11 13:41
141F:→ francej: 真的很难想像 台湾本土LLM 能赚到甚麽钱 10/11 14:36
142F:→ francej: 对岸不会用 欧美日也不会想用 只能岛内自己用 10/11 14:37
143F:→ francej: 这样讲起来 200亿拿去点面线 至少能让肚子吃饱 是还比较 10/11 14:38
144F:→ francej: 实在 10/11 14:38
145F:推 hoesi: 实在个雕,点面线已经有现成的外送app,你做一样定位的东 10/11 15:45
146F:→ hoesi: 西干嘛 10/11 15:45
147F:推 ko363630: 点外送不是就有现成app了? 10/11 16:21
148F:推 Mchord: 就是因为有现成的他们才想做啊XD 10/12 10:03
149F:推 knme: 推推 之前硕班做相关研究 後来因硬体资源不足就乖乖去业界 10/12 12:39
150F:→ knme: 学术单位做研究本来就是针对某环节进行优化改善而已 10/12 12:40
151F:推 wayne0530: 同意,问题是真的有商业价值吗? 10/14 00:15
152F:→ hillhsu: 一直扯数位部,到底是有多低x?? 10/17 18:04







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP