作者forb9823018 (风过无痕)

看板Stock

标题

[新闻] 全球首款「繁体中文」AI 大型语言模型

时间Wed May 3 12:46:09 2023

-------------------------------发文提醒---------------------------------- 1.发文前请先详阅[新闻]分类发文规范，未依规范发文将受处份。 2.连结过长请善用 https://bit.ly/ 等缩网址服务，连结不能点击者板规1-2-2处份。 3.心得/评论请尽量充实，心得过短或滥竽充数将以板规 1-2-3、4-4 水桶处份。 4.发文请依照格式文章标明段落，不符合格式者依4-1删文处分。 ------------------------ 按ctrl+y 可删除以上内容。 ---------------------- 原文标题： ※请勿删减原文标题全球首款「繁体中文」AI 大型语言模型登场！联发科携手中研院打造原文连结： ※网址超过一行过长请用缩网址工具 https://3c.ltn.com.tw/news/53050 发布时间： 2023/04/30 18:52 ※请以原文网页/报纸之发布时间为准记者署名：刘惠琴 ※原文无记载者得留空原文内容：美国新创科技公司 OpenAI 以基於 AI 生成式打造的强大语言模型 GPT-4，透过大量的语言材料与资料训练等技术，让会说人话的「对话式」AI聊天机器人ChatGPT，从去年底开始火速於全球掀起风靡热潮後，不但可输入文字进行问答，现在还能给出图片让AI去解读，甚至还能要求AI生成所需要的图片范例。与此同时，各大科技巨头厂商，也争相投入这波创新AI 技术竞赛的浪潮。不让 GPT-4 专美於前，身为IC设计龙头的联发科於官网宣布，旗下来自前瞻技术研究单位的「MediaTek Research」联发创新基地，近几年来以致力深耕人工智慧技术领域为主要核心，日前已成功开发出全球首款以繁体中文打造、具备增强AI生成训练的大型语言模型「BL OOM-zh」，并公开释出该原始码的测试模型提供外界下载，除能直接输入繁体中文进行问答或生成文案之外，同时兼具支援英文等多语言能力。由於现有多数开放原始码所释出的大型语言训练模型，主流普遍大都倾向以英文作为首要语言与主要优化版本，相较下，以繁体中文所打造的预生成式AI语言训练模型，则是较为少见，且资料量也相对不足。有监於此，联发创新基地於去年五月就已携手与中研院、国家研究院展开合作计画，透过三方共同组成的AI研究团队，以打造出全球首款使用繁体中文作为主要对象的大型语言模型「 BLOOM-zh」为主要诉求，欲藉此让与繁体中文相关的AI人工智慧技术、研究与应用，能更进一步地加速普及化。联发科表示，联发创新基地的AI研究团队，於今年成功开发的首个繁体中文「BLOOM-zh」大型语言模型，主要运用两大关键技术，其一，就是使用能理解包括中文、英文、法文与越南文在内、共计46种语言的「BLOOM」大型语言模型，以「BLOOM」既有具备的繁体中文模型与英文模型作为开发基准。其二，则是另外扩展涵盖新闻、书籍、教育、百科全书与口语化等多个领域文章，包含中文与英文共计74亿个参数值，作为预训练模型。同时，并使用来自国家教育研究院提供的大量高品质繁体中文作为主要训练材料，加上联发科制订以符合国际标准繁体中文评量指标的硬体性能训练环境，与收集近期较新语言材料，以训练模型能具备有更易於读懂使用者输入指令的高效率执行能力。还有，来自中研院针对该语言模型生成的文字，进行自动侦测与评估修正，避免生成的文字内容具有特定偏见或敌意等不适内容。 BLOOM-zh 繁体中文大型语言模型释出开源，点下列网址可前往试用、下载 https://huggingface.co/ckip-joint 另，补充说明的是，上述内文提到的「BLOOM」模型，是由总部位於纽约的AI新创公司 Hugg ing Face，集结全球60个国家、逾一千多位研究人员、於去年2022年推出「BigScience」开源专案项目的成果，「BLOOM」大型语言模型，具备高达1,760亿个参数值，并拥有理解46种语言与13种程式语言的能力。心得/评论： ※必需填写满30字，无意义者板规处分原来联发科也有AI团队，一直以为只有做硬体，少数软体部份也是EDA之类的辅助软体，没想到已经有在做中文AI了。繁中版且不是中国那种挡住一堆敏感词版本，最近应该很多人会试用 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.137.163.49 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1683089173.A.6E7.html

1^F：推 pponywong : 国外一开源国内就自研 05/03 12:46

2^F：→ pponywong : 该不会model有参考GPT-2.0 open source 吧 05/03 12:47

3^F：推 abccbaandy : 不都这样？对岸早就一堆"自研"了XD 05/03 12:51

4^F：嘘 leo921080931: 超废 05/03 12:51

5^F：推 ethan0419 : 自研cc 05/03 12:52

6^F：推 as80110680 : 不能画色图的AI我可是不要的 05/03 12:53

7^F：推 kmark1120 : 如果是gpt-2开源码做出来的对岸一堆了人家不公开 05/03 12:53

8^F：→ kmark1120 : 的已经做到4代了不知道能力差ㄅ别多少 05/03 12:53

9^F：→ faelone : 发哥之前还成立元宇宙办公室呢，真的蛮爱顾股价的 05/03 12:54

10^F：推 Archier : 瑟瑟 05/03 12:55

11^F：推 capssan : 这没办法画图吧，我看连生成色色文都不行 05/03 12:57

12^F：推 NEX4036 : 明天涨停不要不信。 05/03 12:57

13^F：→ capssan : 而且学习的内容居然还包含新闻？..真期待会教出啥 05/03 12:58

14^F：→ capssan : 玩意儿 05/03 12:58

15^F：嘘 stationary : 发哥也懂AI?那就只能喷了 05/03 12:58

16^F：推 BaGaJohn5566: 要重返农药了吗 05/03 13:04

17^F：→ is1128 : 去玩玩demo吧，我只能说废到笑 05/03 13:07

18^F：推 FlynnZhang : \发哥/\发哥/ 05/03 13:10

19^F：→ lpmybig : 发糕重返农药上看一千 05/03 13:13

20^F：嘘 qwas65166516: 一楼不懂装懂内文就说是BLOOM基底了别只会酸 05/03 13:15

21^F：→ uv5566 : 沾边就想炒下一个元元宙 05/03 13:16

22^F：→ qwas65166516: 国内有大厂愿意投资就值得鼓励了 05/03 13:16

23^F：推 cage820518 : 发哥本业没未来了是吗？搞这个东东 05/03 13:18

24^F：推 GooglePixel : 配合政府发展计划领个打工费而已 05/03 13:19

25^F：嘘 qwe78971 : 还以为是自研结果是拷贝别人的拿来改== 这样我单 05/03 13:19

26^F：→ qwe78971 : 人就可以做了发哥有没有考虑高薪聘请 05/03 13:19

27^F：→ sdhpipt : 之後会讲一堆广东话吧 05/03 13:20

28^F：推 KadourZiani : 华语首家线上____上线罗 05/03 13:20

29^F：推 Albert0912 : AI炒起来 05/03 13:21

30^F：→ littenVenus : AI发糕 AI肉松好ㄘ吗 05/03 13:23

31^F：嘘 dergnj : 不过做繁体字没前途就是了 05/03 13:25

32^F：→ alex780312 : 大语言模型搞到剩繁中... 05/03 13:27

33^F：推 may0723 : 台湾首家线上AI上线啦！ 05/03 13:29

34^F：→ l024bytes : 等等这不是it 就有在教学 05/03 13:32

35^F：→ starport : 粉红：乳为什麽不是简体 05/03 13:33

36^F：推 weiyuhsi : 阿难的就是预训练模型，从Bert开始，语言一直都不 05/03 13:34

37^F：→ weiyuhsi : 是太大的障碍，对模型来说啥语言都差不多，好的预 05/03 13:34

38^F：→ weiyuhsi : 训练模型随便tuning一下就可以在其他语言上有很好 05/03 13:34

39^F：→ weiyuhsi : 的表现。 05/03 13:34

40^F：→ weiyuhsi : 不过有大方的说自己套什麽预训练模型，诚实给赞 05/03 13:34

41^F：推 intointo : 训练资料来自？ 05/03 13:36

42^F：推 derekhsu : 这个用开源模型做出来的懒叫比鸡腿喔 05/03 13:43

43^F：推 observer0117: chatgpt用reddit训练，bloom-zh该不会用ptt... 05/03 13:47

44^F：→ observer0117: hugging face，会想到face hugger 05/03 13:48

45^F：→ janhon : 2000亿大概到GPT 3.0规格吧 05/03 13:50

46^F：→ laechan : 跑出答案的速度超慢 05/03 13:50

47^F：嘘 Murasaki0110: 笑死直接git clone算什麽研发 05/03 13:51

48^F：→ laechan : 真的懒趴比鸡腿 https://i.imgur.com/z9kyC9M.jpg 05/03 13:52

49^F：→ JOKIC : 肥宅福音 05/03 13:58

50^F：推 rrroooqqq : 有ai就是喷了，管他内容是什麽！重返千金股 05/03 14:11

51^F：推 strlen : 你各位是多严格？能跑出结果来就该放鞭炮了 05/03 14:15

52^F：→ piece1 : 试了一下....烂到不知道该说啥了! 05/03 14:15

53^F：嘘 ggininin5566: 太神啦 05/03 14:24

54^F：→ onit : 傻傻的猪在风口都会飞发哥本益比这麽低就差题材 05/03 14:44

55^F：嘘 qwe78971 : 试用了一下烂到笑，工程师是不是if(最高建筑)cout 05/03 15:01

56^F：→ qwe78971 : <<101<<Endl;这样那找我去做就可以了 05/03 15:01

57^F：嘘 shirleyEchi : http://i.imgur.com/HhBai7a.jpg 理解能力真差 05/03 15:04

58^F：推 lizardc1 : 发哥上看两千一切预告在前 05/03 15:13

59^F：推 tr920 : 用开源软体刻出来，大概大学专题程度 05/03 15:19

60^F：嘘 NCCUexpert : 参数量差太多，你在幼稚园学习别人读高中了 05/03 15:40

61^F：嘘 lise1017 : 基本上台湾搞的起来的东西都是老蒋那一帮留美回来 05/03 15:43

62^F：→ lise1017 : 的中国人搞的土生土长的台湾人搞出来的东西就是些 05/03 15:43

63^F：→ lise1017 : 小鼻子小眼睛 05/03 15:43

64^F：→ lise1017 : 成不了气候这麽说也不是台湾没人材而是台湾的人 05/03 15:44

65^F：→ lise1017 : 材都不会傻呆在台湾早就出走了 05/03 15:44

66^F：推 ac3333 : 看到工研院心就凉一半了… 05/03 16:41

67^F：推 OnePiecePR : 30亿参数、130亿 tokens 应该还没涌现现象，如果跟 05/03 16:49

68^F：→ OnePiecePR : 前几代能力差不多就糗大了。再观察～ 05/03 16:49

69^F：→ shinyi444 : 爽啦打爆残体文 05/03 16:54

70^F：→ DrTech : 真的是git clone等级而已。拿别人的模型，Bloomz上f 05/03 16:55

71^F：→ DrTech : ine-tune而已。而且有7.7%的资料是从简体中文直接翻 05/03 16:55

72^F：→ DrTech : 成繁体中文。 05/03 16:55

73^F：→ DrTech : 模型参数只有1B-3B，10亿-30亿，真的是GPT-2规模而 05/03 17:17

74^F：→ DrTech : 已。 05/03 17:17

75^F：推 thaleschou : 马上被串去交友软体 05/03 17:57

76^F：推 kalapon : 用之乎者来交谈很利害吗 05/03 18:00

77^F：嘘 reemir : git clone: 05/03 18:57

78^F：推 OnePiecePR : 坦白说 transformer 我也能刻，不知道能不能上新闻 05/03 19:01

79^F：→ OnePiecePR : 。坦白说，我也用 prompt 让 ChatGPT 产出 transfo 05/03 19:01

80^F：→ OnePiecePR : rmer encoder(by torch) 同时也验证正确能执行，不 05/03 19:01

81^F：→ OnePiecePR : 知道能不能上新闻。我不叫发科、我也不姓联。 05/03 19:01

82^F：推 webster1112 : 用来发费雯超赞 ! 05/03 20:24

83^F：→ jarr : 这东西跟拿来当基底的语言模型差在哪？有没有什麽d 05/04 13:47

84^F：→ jarr : emo之类的可以展示出差别？ 05/04 13:47

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

[新闻] 全球首款「繁体中文」AI 大型语言模型

热门看板

赞助商连结