Soft_Job 板


LINE

新闻标题:【剖析中研院大型语言模型事件的冲击】为何台湾必须拥有本土化的LLM 新闻来源:iTHOME 新闻连结:https://www.ithome.com.tw/news/159231 内文:在10月6日国庆日前夕,中研院开源释出了使用Llama 2所开发的繁中大型语言模型 CKIP-Llama-2-7b,但由於一开始未说明该模型是明清人物研究专用非通用,让外界误以 为是通用型的繁中语言模型而有更大的期待,经过许多人试用後,结果发现在回答提问时 ,模型提供的内容不够本土化,甚至可能出现简中习惯的用语或词汇,而引起热议。中研 院在模型释出4天後决定将该模型下架,并承诺未来发布研究成果时,会制定更严谨的审 核机制,以防止类似问题再次发生。 中研院AI模型事件引起各界广泛讨论。多数声浪都是责难中研院,不应该使用中国的简中 语料当作训练资料,并且批评不该在处於测试阶段就将模型对外开放,甚至也有立委出面 指责,这已升高到认知战,但是在台湾,特别是技术社群中,也有一群持不同观点的专家 ,他们认为尽管此次中研院繁中模型的成果不完美,但透过提早释出和频繁释出( Release early, Release often)的方式,可以快速获得反馈,迅速进行更新,吸引更多 人参与,使模型持续迭代,进一步提升成果的品质,这也才是开源社群能够不断进步的原 因。 但这次事件更深层的意义,一方面反映出各界高度期待拥有一个能够 说出在地口气、本土回应的LLM模型,另一方面也凸显了台湾自主研发大型语言模型的 重要性 可是,大型语言模型,除非使用本地资料集、从头开始训练,否则就算用Llama 2或其他 开源LLM模型,都可能因为资料集的语言分布落差,而产生各种偏差歧见、不同的价值和 解释,尤其,台湾本土的资料量仅占网路世界不到0.1%,即使在微调时加入本地资料, 资料量不够多、不够全面完整,很难确保模型能够完全贴近自己在地风格、使用习惯和语 言表达方式。 这次由中研院所开发的这一款明清研究用的繁中语言模型,就是一个典型例子。为了要自 动化分析中国明清朝代人物的生平图谱,中研院的CKIP Lab中文词知识库小组使用了Meta 的Llama-2-7b和来自中国的Atom-7b这两个开源LLM模型作为预训练基础模型,以此训练出 一个专为明清人物分析而优化的CKIP-Llama-2-7b模型,後来更对该模型进行多任务微调 训练,推出了支援更广泛对话和问答任务的CKIP-Llama-2-7b-chat模型版本,可运用在文 案生成、文学创作、问答系统、客服系统、语言翻译、文字编修、华语教学等。 为了研究所需,CKIP Lab团队选择的开源基础模型和微调的资料集中包含了许多来自中国 的简中资料,例如COIG-PC和dolly资料集等,导致训练出来的繁中语言模型虽然能更准确 地回答明清人物的相关问题,但当回答一些台湾在地的提问,尤其是一些关於事实的问题 时,就有可能生成出不够本土化,甚至是不正确的内容,例如提供错误的国庆日时间或总 统姓名。这也凸显出在训练过程中使用的资料的重要性。 为何台湾必须要建立自己的LLM模型 在AI领域研究很有经验的中研院资讯科技创新研究中心研究员李育杰,是国科会负责建构 台湾大型语言模型的可信任AI对话引擎(TAIDE)计画负责人。他指出,台湾必须自行拥 有大型语言模型的关键原因是,目前不论是OpenAI和Meta提供的语言模型,都存在资料偏 差(data bias),特别是在中文语料蒐集方面,中文资料占比非常低,而且由於大部分 的训练资料都是透过网路爬取,其中简中内容比例远高於繁中,在台湾本土的繁中资料量 相对稀少的情况下,就容易导致因资料偏差而影响到模型生成的结果,出现和原本预期不 一样的情况。 但要让台湾建立自己的大型语言模型,前提是需要建立台湾自己的大型语言资料集,所以 ,「台湾应该好好整理我们自己的繁体中文语料库」他再三强调。 今年6月时,国科会对外公开展示TAIDE计画的阶段性成果,使用大量纯繁中资料微调出一 个国产70亿参数的AI对话引擎,可执行摘要、翻译、写信、写文章等任务。这套AI对话引 擎的背後正是使用和中研院CKIP-Llama-2-7b模型相同的Llama 2开源模型当作预训练的基 础模型。 本土化的LLM模型训练三个阶段 在本土化LLM模型训练过程主要分三阶段,第一阶段是持续预训练(Continual Pre-training),让语言模型了解如何透过文字接龙方式,来预测下一个字的机率分布情 况。第二阶段则是微调建构学习(Fine-Tune Construction Learning),藉由问答的配 合来让模型学会回答人类的问题,例如什麽样是正确的答案。当模型开始能够产生回应时 ,还需要人为的介入,也就是人为反馈强化学习(Reinforcement Learning with Human Feedback) 的阶段,透过由人来教导,来加强模型在各方面的表现。 李育杰表示,三个阶段中,一开始就需要使用大量的繁体中文语料库,来让模型学习基础 的语言逻辑、常识与知识等,以便能够训练出符合在地化繁中语境的模型,「这也是我们 现在正在做的事情,」他表示,目前已蒐集的繁中资料,包括有来自中央社、光华杂志社 资料等。 为了使训练的模型能更贴近在地化用语或风格,他表示,一开始资料选择很重要,除了需 要是本土资料以外,所有资料都要经过筛选过,涵盖不同的主题,此外,在资料蒐集上也 会有相关限制,例如要排除不合宜或不当的用语(dirty words)。 即使靠着简转繁方式来获取可用於模型训练用的数据,他表示,也需要注意台湾和中国之 间,不仅在文字用法上存在简繁体的差异,实际上在翻译、专有名词的用法等方面也存在 许多不同之处。更深层次的差异,在於彼此的价值观不同,因此,如果直接使用中国简转 繁方法,也有可能导致该模型输出结果与原先预期不一致。 尽管这次中研院模型事件起因於明清的人物研究,研究人员使用了中国的简中资料来训练 模型,但没有预料到外界对於模型的测试超出了他的想像范围,也超出了其研究范畴。李 育杰认为,从这起事件中能够看到台湾自行建立本土的繁中资料集的必要性,但也需要更 加小心处理资料的使用、模型授权与训练环境的建立。 TAIDE计画经过半年多发展,他表示,最快10月底将会公布一个可商用的小模型。他透露 ,目前在文章内容生成和提供建议的测试方面,模型表现已经相当有模有样,但他不讳言 和ChatGPT相比仍有差距,「但是台湾总要开始踏出第一步」他说。 从推动AI产业的角度来看,台湾人工智慧学校校务长蔡明顺在个人脸书以「中研院词库模 型事件给大家上了一堂LLM课」为题提出他对此事的观点。他期盼中研院模型事件能成为 一大助力,「不单只是引起社会关注,也让台湾在大型语言模型这件事上,不只是跟上, 更能够实现与世界同步的发展。」 蔡明顺表示,从这起事件反映出台湾社会非常殷切期待能有自己的本土化的商用繁中大型 语言模型,但想要建立一个大型语言模型,首要面对的是资源缺乏的挑战,不过他指出, 中研院开发的语言模型仅仅是个人小型研究之用,用於明清史料的研究,而非用於台湾通 用LLM模型,因此,经费仅有30万元。他表示,国科会主导的TAIDE计画,才是真正在开发 的台湾LLM模型。 不过,这次事件引起了不少政治人物的关注,开始认识到台湾需要拥有自己的GPT,蔡明 顺认为,这有机会在立法院明年预算中被纳入讨论。再加上两岸的认知战和全球局势的变 化,以及近期OpenAI创办人Sam Altman访台,都让AI的关注度大幅提高,「在中研院AI模 型事件发生後,就像点燃火柴,引爆後续一连串的效应。」他说。 蔡明顺建议,政府应该藉此机会加强在软体方面投入更多资源,尤其是语言模型和资料集 的建立上,以便让台湾能够加快发展的脚步,而不仅仅是在硬体方面的投入,如此一来, 才能够有助於台湾在AI领域上取得更大的进展。 中研院允诺将整合繁中词知识库,协助推动台湾在地化LLM的发展 在中研院AI模型引起争议後,中研院决定将该模型先行下架,除了声明表示将制定更严谨 的审核机制,避免类似事件再发生,也宣布将整合繁体中文词知识库,协助推动台湾大型 语言模型的发展。此外,中研院未来还计画扩大召集跨领域AI相关的研究人员进行跨域研 究,而且不仅仅是那些从事科研或科技领域的人,也会广邀人文及社会科学的人才加入, 促进台湾繁体语境生成式AI的发展。 蔡明顺对此表示肯定,认为这对於台湾本土LLM发展来说是一件好事,「要用技术的语言 回应政治的语言是不对的 ,因为你回应不了」他建议,政府应该利用此机会好好审视AI 治理的发展,包括AI的管理进程,尤其面对生成式AI带来社会冲击,提供相关指引、法规 建立等,同时,也要考虑到社会期待,不只是想看到研究成果,而是期望透过AI协助国人 、社会带来生产力提升 、效率提高,甚至能提供企业商用。 尽管中研院繁中语言模型目前已下架,无法继续使用,不过目前在台湾还是有一些本土化 的LLM模型正在持续发展中,除了国科会AI对话引擎TAIDE,还有来自台大资工系副教授陈 縕侬团队开源释出的Taiwan-LLaMa v1.0模型,强调完全采用本地化的繁中语料进行微调 训练。 针对这次中研院事件,陈縕侬也在脸书上发文表示,经过大量网路资料训练出的LLM,如 Llama 2,就算再放入本地化的资料进行模型微调训练,若是资料量不够多,还是有可能 生成不够本土化的内容。此外,生成式AI的输出会有一定程度的随机性,每次输出结果可 能都不相同,所以她认为,需要透过开源模型,蒐集到更多使用回馈,持续改进模型品质 ,来达到更加本土化的输出结果。 李育杰也认为,这次事件凸显了台湾需要更积极地整合自己的繁中资料库,他也乐观看待 此事件後续发展,期待更多人能够参与,例如有社群已经开始自发地要进行做文字的蒐集 、标注清洗,并鼓励更多人一起加入行动。 简短心得:这一次中研院模型事件 引起满多讨论 虽然很多讨论都是负面 但是 正面的讨论也是不少 希望可以藉此这次事件 让政府更加重视台湾自主的LLM的研发 能用和推动资安一样的态度来推动LLM发展 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.34.130 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1697225677.A.4B0.html
1F:推 justaID: 原来那个模型是特定领域用途 那用通用标准去看待确实就 10/14 05:15
2F:→ justaID: 不适合 推这篇新闻 满有水准的 评论中性 说明不少背景资 10/14 05:15
3F:→ justaID: 讯 发展现况 以及本土LLM继续前进需要什麽进行 说明也还 10/14 05:15
4F:→ justaID: 算浅白适合大众理解 10/14 05:15
5F:推 una283: 10/7释出的新闻稿和开源连结页面上示范例都是日常用 10/14 08:55
6F:→ una283: 例如:请推荐台湾小吃观光等 10/14 08:55
7F:→ una283: 明显是决定打广告的高层不解模型的本质是什麽 10/14 08:57
8F:→ una283: 结果出错後还要做基层的人来解释 10/14 08:58
9F:推 nelley: 推 10/14 09:26
10F:推 seebass: 繁体资料都在各大巨头身上,国家单位或学术要发展繁体LLM 10/14 09:49
11F:→ seebass: ,效能上注定是有天花板的。 10/14 09:49
12F:推 qwe70302: 既然是特定领域用途,难道不能把特定领域以外的回答锁 10/14 10:14
13F:→ qwe70302: 起来吗?蛮可惜的,下架太快,现在才知道是特定领域用 10/14 10:14
14F:→ qwe70302: 途也没办法上去玩看看了 10/14 10:14
15F:推 cplusplus426: 有够丢脸 10/14 11:06
16F:→ GoalBased: 标题写为何需要,内文都没讲为何需要..? 10/14 13:01
17F:推 justaID: 算是有提为什麽?用国外LLM中文训练资料占比太少,又简 10/14 13:37
18F:→ justaID: 中居多,容易资料偏差回答不好。虽然这比较像技术角度, 10/14 13:37
19F:→ justaID: 而非商业应用价值角度,但这种单位着眼点,本来就偏技术 10/14 13:37
20F:→ justaID: 探讨,本土LLM商业应用潜力相信有,但本土市场小对商业 10/14 13:37
21F:→ justaID: 产品是个天花板,这也限制了能投入的资源成本,而训练需 10/14 13:37
22F:→ justaID: 要的资源成本之大版上其他大神分享过了。不过这种商业前 10/14 13:37
23F:→ justaID: 景考量就不是学术研究单位的重点了 10/14 13:37
24F:→ justaID: 5楼提的情况在组织里很无奈 基层努力打通某个环节达成阶 10/14 13:42
25F:→ justaID: 段性成就 高层想行销成果但不了解内涵 於是就悲剧 明明 10/14 13:43
26F:→ justaID: 也许是值得鼓励的阶段性成果 却反而被排山倒海责备 这对 10/14 13:43
27F:→ justaID: 基层的士气很伤 10/14 13:43
28F:嘘 gaymay5566: 台湾根本没实力发展LLM 相信过了20年 依然停在期许 呵 10/14 13:58
29F:→ gaymay5566: 我也不信烧2~3亿出来的TAIDE 能有什麽鬼能耐 10/14 14:00
30F:→ viper9709: 特定领域用途应该把领域以外的回答锁起来+1 10/14 20:23
31F:推 rahit: 太长 10/14 21:47
32F:→ DrTech: 发展LLM问题根本不在本土化,或繁中。为了政府经费,动不 10/14 23:57
33F:→ DrTech: 动就主打繁中,根本是骗钱。真正好的知识,又不在繁中语料 10/14 23:57
34F:→ DrTech: 。 10/14 23:57
35F:→ DrTech: 难道ChatGPT输出简体中文,或中国知识,我们就觉得ChatGPT 10/14 23:58
36F:→ DrTech: 发展错误吗? 思考程度要站高一点。 10/14 23:58
37F:→ DrTech: 如果今天google搜寻引擎,搜到一粉红发言,台湾是中国的。 10/15 00:06
38F:→ DrTech: 政府与学者,就要大家禁止用google,然後花大量经费,自己 10/15 00:06
39F:→ DrTech: 发展一个很烂的"台湾版Google搜寻引擎吗?" 明眼人都知道 10/15 00:06
40F:→ DrTech: 是骗钱。 10/15 00:06
41F:推 DrTech: 中研院,与台大,应该是去发展能训练本土化模型的工具。而 10/15 00:10
42F:→ DrTech: 不是为了本土化,繁体化,训练一堆只会输出特定繁体中文, 10/15 00:10
43F:→ DrTech: 然後无法实用的烂模型。 10/15 00:10
44F:→ DrTech: 你用google搜寻,应该都希望能搜到全世界知识吧,实际上很 10/15 00:28
45F:→ DrTech: 多专业知识也是用简体纪录的。万一Google只能搜到繁中,台 10/15 00:28
46F:→ DrTech: 湾本土化知识会有多难用?同样的LLM只有本土化知识,可以 10/15 00:28
47F:→ DrTech: 排除所有简体知识,会有多难用呢? 排除中国政治化的知识 10/15 00:28
48F:→ DrTech: 我认同。但只蒐集训练做本土化语料与繁体中文模型,绝对烂 10/15 00:28
49F:→ DrTech: 到爆。沦为经费骗子。 10/15 00:28
50F:→ netburst: 我都看知呼 简书 CSDN STACKOVERFLOW MEDIUM.com 10/15 02:59
51F:推 tsrn46336686: 其实政府或是有人能搞好一个开源的台湾用语资料库, 10/18 05:06
52F:→ tsrn46336686: 相信学界跟商业上都会开始相继拿模型做应用,只是这 10/18 05:06
53F:→ tsrn46336686: 种东西短期内很难像 train 一个 model 一样马上看到 10/18 05:06
54F:→ tsrn46336686: 成果,根本没人想搞 10/18 05:06







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP