AI_Art 板


LINE

今天整理的资讯,也分享一份简易版本在板上, 这部分自己研究自己理解会有点复杂,部分内容来自台湾智慧云端的AI超算年会。 - 1.台湾有两个「繁体中文语言模型」 分别是 联发科 & 教育部国家教育研究院 & 中央研究院词库小组BLOOM-Zh(繁体中文增强型BLOOM模型)华硕 & 科技部国家实验研究院国家高速网路与计算中心中心 = 台湾智慧云端FFM(Formosa Foundation Model, 福尔摩沙基础语言模型 ,或称台智云版的繁中BLOOM) 对,台湾的两个繁体中文语言模型都是源自於开源的BLOOM语言模型,非纯中文模型, 而且两个模型的研发单位跟资料来源都不同,但又都同时具有官方背景。 - 2.开源的BLOOM语言模型介绍 全称: BigScience Large Open-science Open-access Multilingual Language Model 主导公司 Hugging Face 在2022.05启动的专案,由全球60个国家、逾250个机构, 以及超过1,000名研究人员的贡献,最後由法国超级电脑Jean Zay执行117天的训练而成。 https://huggingface.co/bigscience/bloom https://images.plurk.com/2qBw9sRFznxBhnObkBiPtq.png
最大的版本具有 176B(1760亿) 参数,对照组GPT3:175B / GPT3.5: 200B BLOOM模型可理解46种语言及13种程式语言,包含法文、西班牙文、越南文、中文或多种 印度及非洲语言,大约只有超过30%的训练资料为英文(但缺少德文、日文、俄文)。 能要求BLOOM撰写食谱、翻译或摘要,也能要求BLOOM撰写程式码。 https://www.ithome.com.tw/news/151935 https://edge.aif.tw/hhri-20230223-stevechen/ 释出的版本包含 BLOOM-560m / 1b1 / 1b7 / 3b / 7b1 / 176b ,b = billion,参数量 176B版本有约等於GPT3.5的同级水准。 简体中文语料占比16.2% 繁体中文语料占比0.05% https://images.plurk.com/7iD8Y7Dz4p6vNlUtNAPiYC.png
https://huggingface.co/docs/transformers/model_doc/bloom https://huggingface.co/bigscience/bloom/blob/main/README.md * 语言模型的开源通常包含以下内容 模型的架构:也就是该模型的基本设计,包括它是如何构建的、如何运作的等。 训练程式 :这是用来训练模型的程式,它定义了如何使用数据来训练模型。 预训练模型:这是一种已经过训练的模型,用户可以直接使用它来生成文本或者在特 定的任务上进行微调。 但需要注意的是,开源并不意味着训练数据也被公开。 (以上文字from GPT4 Web Browsing) - 3.BLOOM-Zh 语言模型介绍 第一个繁体中文(特化)语言模型,分为1b1版跟3b版,改自 BLOOM-1b1 / BLOOM-3b, 开源在 Hugging Face,也是唯一开源的繁体中文语言模型,3b版公开日期 2023.04, 预期使用情境包含问答系统、文字编修、广告文案生成、华语教学、客服系统 https://huggingface.co/ckip-joint/bloom-3b-zh 2022年5月,联发创新基地、中央研究院和国家教育研究院展开合作计画,使用大型语言 模型BLOOM的繁体中文模型再训练与优化。 联发创新基地则建置了训练的硬体环境,制订各种符合国际标准的繁体中文评量指标,收 集更近期的语料,并对模型进行能更有效读懂使用者的指示(prompt)的特别训练。 国家教育研究院提供了大量高品质的繁体中文语料,作为主要的训练材料。中央研究院词 库小组则针对模型生成的文字是否具有偏见或敌意等不合适的内容,进行自动侦测与改正 的研究与评估。 https://www.nownews.com/news/6063736 https://ezone.ulifestyle.com.hk/article/3517038 中研院词库小组是台湾负责研究繁体中文自然语言处理的研究单位, 曾在2019年开发并公开BERT和GPT-2的繁体中文优化版本。 具体做的事情可以参考下面这篇 【断开中文的锁链!自然语言处理 (NLP)是什麽?】 https://aiacademy.tw/what-is-nlp-natural-language-processing/ 实际上效果... https://images.plurk.com/5Nwi4czISV7b6TYLhWZxs8.png
没意外就是之前很多人说"很烂的繁中BLOOM模型" - 4.台智云 FFM 语言模型介绍 第一个企业级繁体中文(特化)大型语言模型, 分为7b1版跟176b版,改自 BLOOM-7b1 / BLOOM-176b,据说有个500b的版本。 正式发表於2023.05,之前都称为台智云(TWS)版的繁中BLOOM模型,预计2023.07上线, 仅对企业用户,没有打算开放民用。 https://tws.twcc.ai/ai-llm/ (未更新FFM资料) https://www.youtube.com/watch?v=ay1AinPNaBs&t=96s (2023.02的早期介绍影片)
2018年,科技部国研院国网中心结合广达、台湾大、华硕等三大国内企业共同组队建造的 「云端服务及大数据运算设施暨整合式阶层储存系统」(简称AI云端平台/ 台湾AI云 TWCC),拥有命名为「台湾杉二号」(TAIWANIA 2)的AI超级电脑主机。 2021年2月成立,华硕集团子公司,与国家高速网路与计算中心合作,承作TWCC的维运和 销售。华硕身为台智云最大股东,台智云董事长由华硕营运长谢明杰兼任,而台智云总经理由华 硕云端总座吴汉章担任。 台湾大、兆丰金和永丰金合计投资共1.3亿元,成为高科技业、电信资通、金融证券三强 鼎立的多元股东结构。 https://images.plurk.com/3nyYXfyUVnMTEMul6Gqbxb.png
http://www.genetinfo.com/investment/featured/item/37784.html https://www.clarisonic.com.tw/archives/64649 资料来源是意蓝资讯有限公司, 意蓝资讯有限公司是一间专业在分析台湾产业与社群的公司, 几乎囊括台湾各大社群平台的使用者公开资料,专注在产业应用与社群分析上。 https://images.plurk.com/1arTjoKZ00R82O614Tbjsc.png
https://www.eland.com.tw/ FFM Demo起来的感觉粗估有达到GPT 3.5的水准,同时对於台湾具有相当多的事实资讯, 包括台湾的地理与历史资讯、商业品牌与市场资讯、文化资讯等等。 主打企业可以针对训练模型、本地存放、符合台湾资安与法规需求等等。 现场一些Demo与投影片画面: https://images.plurk.com/2MYAIt9XLhn76VKbdGxsx0.png
https://images.plurk.com/11oRzMol8ASfgG4teMvCrB.png
https://images.plurk.com/DSlxBdEbuAnKYw8oVWeb6.png
https://ithome.com.tw/news/156934 https://images.plurk.com/3oba15qvtTT00CqkFz4I6J.png
https://images.plurk.com/3RZda9yAXseTqBSdvKeWIn.png
https://images.plurk.com/7livkx0dYvbV6aOF4PQE6D.png
https://images.plurk.com/5Rw06HI9QudUMXyv6EFYMy.png
https://images.plurk.com/dn7Vc29N9DbFd2a1NseH1.png
https://images.plurk.com/29jyqilxZHEfF7L4UwpQ0A.png
https://images.plurk.com/2vaYCZUa4Vee95TVtYU72O.png
生成式AI市场数据 https://images.plurk.com/1iRdK0weumTW7deHwUYEJJ.png
https://images.plurk.com/2bvMJedSS4w3rQQo79OPT.png
剩下的整理报告我就不贴了,因为不能民用所以跟大部分的使用者其实也没什麽关系XD 主要就是帮大家区分一下繁体中文语言模型的区别,不然读起来很混乱。 有兴趣欢迎提问。 -- AI_Art AI艺术与创作板 欢迎各方前来讨论AIGC创作与相关议题! AI情报屋营业中 噗浪:https://www.plurk.com/Zaious IG :https://www.instagram.com/zaious.design/ 日历:https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.250.61.231 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1684735647.A.E3F.html
1F:→ ZMTL: 不小心发出来了,我继续写XD 05/22 14:07
2F:推 Vulpix: 用版主权限删文可以不用清理费用的样子。 05/22 15:32
没差,我只是发了都发了就慢慢补完XD ※ 编辑: ZMTL (60.250.61.231 台湾), 05/22/2023 15:35:59
3F:推 Vulpix: 语言模型现在硬体门槛看起来还是好高,每次看到新东西我都 05/22 15:40
4F:→ Vulpix: 只先查这个,可是好多model都不讲>"< 05/22 15:41
5F:推 tonyscat: 推分享!! 05/22 19:22
6F:推 Destiny6: 感谢介绍,看起来只能去玩对面的了... 05/22 19:25
7F:→ Destiny6: https://zhuanlan.zhihu.com/p/630582034?utm_id=0 05/22 19:27
8F:→ Destiny6: 略算语言模型吃多少VRAM 05/22 19:27
9F:→ Destiny6: 例如,如果一个模型有7B个参数,那么它的FP32记忆体用 05/22 19:28
10F:→ Destiny6: 量是28GB,而它的FP8记忆体用量是7GB。(拿BING算的) 05/22 19:28
11F:推 avans: 推繁体语言模型介绍 05/22 21:44
12F:推 reader2714: 最接近可以自己玩得应该是LLaMA那个谱系巴 05/22 23:16
13F:推 Destiny6: 可以接受简中的话倒是有好几个中文模型,甚至还有网小 05/23 00:27
14F:→ Destiny6: 特化跟色文的...(只查过资料,目前机器没能力跑) 05/23 00:27
15F:→ ZMTL: 突然想到我忘记放图,晚点补 05/23 10:13
16F:→ ZMTL: 大家可以推文留言有哪些有到「堪用」等级的语言模型,我可以 05/23 10:13
17F:→ ZMTL: 去研究XD 05/23 10:13
※ 编辑: ZMTL (59.124.87.90 台湾), 05/23/2023 11:37:47
18F:推 reader2714: alpaca好像还有中文Lora调整版 05/23 16:54
19F:推 abc123634: 目前在日本做日文的开源 LLM,希望之後台湾也有开源且 05/23 19:41
20F:→ abc123634: 堪用的繁体模型。感谢整理! 05/23 19:41







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP