作者alex780312 (Alex)
看板Soft_Job
标题Re: [讨论] 中研院繁中LLM被爆直接拿对岸的来套
时间Sat Oct 14 15:46:23 2023
※ 引述《DrTech (竹科管理处网军研发人员)》之铭言:
: 2. 训练模型会先卡什麽?
: 目前,台湾任何一个单位,根本没能力研发LLM模型架构。台智云,中研院,或其他任何单位。
: 都是基於LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相关技术去 fine-tune的。这些都是open source直接去套而已,
: 完全没有任何技术门槛。
: (只有谁愿意采购几千万硬体的门槛而已)
身为LLM猴子,大多同意DrTech的看法,只是台智云这块有点不一样。
其实台智云有几乎一半台湾杉2号的机器可以用,
也克服很多开源软体无法解决的问题;例如硬体是V100不是A100,
又要能够做3D model parallelism,又要同时能跑LoRA,RLHF,
在100Gbps网路中维持GPU使用率满载等等。在meta llama出来之前,
我们还是跑BLOOM-176B,硬体需求更高。
我想说的是,在LLM训练阶段,许多硬体门槛已经被台智云推倒了,
台湾杉2号还能够做很多事!我觉得可惜的是政府,学界,企业的整合部份,
因为不同单位考量的利益是不同的,企业只做特定任务finetune是因为
客人就需要这种东西,至於基础模型的训练无法在短时间内看到好处,
比较适合政府和学研单位主导。LLM猴子什麽咖都不算,在公司内拍桌说要
开源也没人听(还好没有被开除XD)
例如TAIDE是很有潜力当个统合协调的角色,看起来官学合作已经成型,
只剩业界无法进去?纵使业界在台湾杉2号上已经有许多突破,
但我们没办法有机会透过某种合作的形式让学界也使用我们的技术,
然後公司又不像学界那样以论文产出为目标,所以很难说服老板去
做些"开源"的工作,自然也不会做些纯研究的项目。
台湾杉2号绝对能够做到清理commoncrawl、FP16精度训练不用QLoRA、
训练超过176B参数的大模型。希望大人物们(产官学)能够多多思考和沟通,
看怎麽促成更多人的合作罗。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 182.234.135.79 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1697269585.A.56F.html
1F:→ ToastBen: 说个笑话:产官学 10/14 23:27
2F:→ DrTech: 很好的讨论,让大家看到更多想法 10/15 00:12
3F:推 zanyking: 推,希望看到更多通用的合作与尝试 10/15 00:29
4F:→ alex780312: 补充一下,台智云像是官+产的合作,目的在充分发挥台 10/15 10:24
5F:→ alex780312: 湾杉二号使用率,但缺乏学研角色。现况是台湾杉的资 10/15 10:24
6F:→ alex780312: 源被切成两半各做各的,台智云考量time to market , 10/15 10:24
7F:→ alex780312: 而TAIDE 可以慢慢打磨,路线不同 10/15 10:24
8F:推 Csongs: 推一个 10/16 15:44
9F:推 sbL: 推 10/17 02:09