Tech_Job 板


LINE

https://ec.ltn.com.tw/article/paper/1613748 繁中资料量落後简中 不利台AI语言模型 2023/11/05 05:30 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
国科会推动台版生成式AI,结合产官学研开发「TAIDE」,耗时4个月推出初阶成果,投入 70亿个参数量,帮AI上繁体中文课,前在自动摘要、翻译文本、写信、写文章等都有不错 表现。(资料照,记者吴柏轩摄) 国科会发展台版可信任AI对话引擎TAIDE 防堵中国偏见论述 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
国科会今年6月发表「可信任人工智慧对话引擎」(TAIDE)7B模型。国科会主委吴政忠( 左)表示,TAIDE是「打地基」,未来将提供公私部门加值应用,并守住台湾拥有的珍贵 繁体中文语料。(中央社资料照) 〔记者欧宇祥/台北报导〕近年中国影视创作、短影音平台大举跨境渗透台湾,时而引发 对台认知作战的疑虑,且台湾发展生成式AI(人工智慧)等技术也须留意资料准确性、以 免生出不当答案。AI领域专家坦言,目前繁体中文资料量远少於简体中文,加上台湾网路 社群的知识性分享风气相对不盛,对我国开发AI大型语言模型相当不利。 台算力、资料资源相对有限 ChatGPT带动AI军备竞赛,我国政府是由国科会发展「可信任人工智慧对话引擎」(TAIDE )计画,产官学各自前进;不过发展AI烧钱,台湾算力、资料等资源都相对有限,研究单 位资金更紧缺,日前研究经费仅约三十万的中研院AI语言模型,因出现中国观点的回应, 引起轩然大波。 中研院资通安全专题中心执行长李育杰指出,生成式AI需要大量文本资料用做训练、再运 用机器运算进行「接龙」、产出内容,受资料集影响大;而中研院争议是源自於使用的 Llama 2模型,因含有中国资料集、易产生相应观点答案,加上中企、研究单位大力投入 AI研发,都凸显台湾需要自己的大型语言模型。 台湾人工智慧协会理事黄逸华分析,目前开发AI模型可将简中资料转换成繁中,或将简中 资料剃除,但繁中资料量相对较少,可能使AI模型较容易出现幻觉(Hallucinations;即 无法作答的空白,可能以虚构来填补答案),或功能会较为局限,且此问题是十数年积累 、短期难解,若使用PTT等平台资料,处理成本又高。 李育杰也认为,PTT、Dcard等台湾本土社群的用语生命周期短,加上资料杂乱可能蕴含谩 骂、火星文,品质不一定好,若要用在AI大型语言模型训练需再经处理;即使都以繁中资 料训练,AI仍可能生成不如预期的答案,以现行技术无法一○○%掌控规则与结果,只能 尽量隔绝不希望AI学习的资料与内容。 -- 没说小乘大乘上座部佛教马哈希尊者《具戒经讲记》拆穿佛教大乘经典的骗局 上座部佛教明昆《南传菩萨道》真释迦牟尼佛的菩萨成佛之道 大乘菩萨成佛之道 妙法莲华经 华严经 心经 金刚经 楞伽经 梵网经菩萨戒 圆觉经 楞严经大乘假佛经 阿弥陀佛 药师佛大乘假观世音 文殊 普贤 维摩诘 龙树 地藏王大乘假菩萨 https://webptt.com/cn.aspx?n=bbs/soul/M.1523979060.A.68C.html 上座部佛教目犍连子帝须那先伪经大乘十方诸佛 --
QR Code



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.230.165.15 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Tech_Job/M.1699186695.A.5A6.html
1F:→ jupei : 还不都中文 有差? 11/05 20:50
2F:→ Skydier : 上次不是被抓包套皮中国的系统 11/05 20:55
3F:推 physicsdk : 我不会说没差,但既然简中有优势,就还是需要多参 11/05 20:58
4F:→ physicsdk : 考求自己进步,不能为反而反 11/05 20:58
5F:推 gino0717 : 除了政治话题外有什麽资料是繁中有简中没有的 11/05 21:03
6F:推 a22222a4210 : 繁转简没啥问题 简转繁很多字会转不过来 11/05 21:08
7F:嘘 yunf : 这原本就是一个政治操作原本就只有2000多万人口的产 11/05 21:10
8F:→ yunf : 出要怎麽会多过13亿人口的产出你可以说这是一个与爱 11/05 21:10
9F:→ yunf : 发展的困境也可以说他根本就不是一个问题这个问题会 11/05 21:10
10F:→ yunf : 产生完全是因为你选择使用这样的方向发展而不是使用 11/05 21:10
11F:→ yunf : 一个量少质精的方向发展会遇到这种问题根本就是迟早 11/05 21:10
12F:→ yunf : 的事别把大家都当白痴耍 11/05 21:11
13F:→ yunf : 聪明的乡民应该要去追溯这则新闻到底是谁出的还有谁 11/05 21:12
14F:→ yunf : 决策这些东西发展的方向自然就会水落石出! 11/05 21:12
15F:→ kevinmeng2 : 自由时报…呵呵,不演了? 11/05 21:35
16F:推 guf60152 : AI本身就大数据 能赢我才觉得有鬼吧 11/05 21:36
17F:→ kissmickey : 都抄的当然落後 11/05 22:06
18F:推 ohohohya : 自己不累积啊 先出钱翻译国外文件 11/05 22:21
19F:嘘 TISH12311 : 乾脆繁转英还比较有用 11/05 22:26
20F:推 j0958322080 : 中国连 stackoverflow 都翻成简体了 11/05 22:33
21F:嘘 ccas : 等一下,中研院不是已经切割说是「个人研究」吗? 11/05 22:46
22F:→ ccas : 结果现在又开始出来说沾光? 11/05 22:46
23F:推 BIOS : 简中资源量一直都是屌打繁中.... 11/05 22:53
24F:嘘 chunfo : 台湾是全世界最鄙视翻译的地方 11/05 22:54
25F:推 rogergon : 当然有差,简中LLM弄出来的用词就是对岸的。 11/05 23:19
26F:→ DrizztMon : 不是简中是屌打繁中,但这样世界各地其他国家怎麽办 11/05 23:33
27F:→ DrizztMon : 又不是被屌打就做不出来 11/05 23:33
28F:推 gn01216674 : 理由伯 11/05 23:41
29F:推 centra : 科技业不烙个英文单字就弱了 11/05 23:45
30F:推 ciplu : 新闻现在都用水平了 没在用水准 早就被统一 11/05 23:50
31F:推 centra : 还不如花钱让全国人民英语能力提升 11/05 23:50
32F:→ ciplu : 连用词都慢慢被同化 直接用简转繁训练算了 11/05 23:51
33F:推 gn01216674 : 上次还听到新闻说「质量」....听了摇头 11/05 23:56
34F:推 Lhmstu : 放弃吧,台湾不可能搞这个 11/05 23:58
35F:推 Ron51320 : 所以数位部还在搞面线吗? 11/06 00:17
36F:嘘 lovebridget : 哦 要合理化直接爽抄中国又爽拿台湾经费了 11/06 00:17
37F:推 lwamp : 就是找个藉口要钱啦,然後花了大钱又做一个垃圾出 11/06 00:19
38F:→ lwamp : 来 11/06 00:19
39F:→ lavign : 繁中资料集也只是ChatGPT的一点点而已 11/06 00:23
40F:推 s1an : 不忍苛责CKIP 有问题的是没搞懂又乱发新闻的人 11/06 00:47
41F:推 crey : 两千多万人的资料产出想大於13亿人?这数量差太多了 11/06 01:59
42F:嘘 HenryLin123 : 合理化支语仔行为 11/06 02:00
43F:推 menesn : 对普通台湾人如我,最好的选择就是把英文跟简中都练 11/06 02:13
44F:→ menesn : 繁中我不指望了 11/06 02:13
45F:推 drakd4d : 人家有知乎,繁中有啥?Dcard幻想文?觉青废文,还 11/06 06:05
46F:→ drakd4d : 是白饭新闻? 11/06 06:05
47F:→ drakd4d : 就没什麽知识性的讨论,人民也不爱看书,自己变弱势 11/06 06:05
48F:→ drakd4d : 文化怪谁? 11/06 06:05
49F:→ drakd4d : AI刚好就是加速淘汰弱势文化而已 11/06 06:05
50F:推 drakd4d : Garbage in Garbage out 11/06 06:09
51F:推 drakd4d : 最佳解法就是学新加坡变英语系国家,不然讲中文逃不 11/06 06:11
52F:→ drakd4d : 了 11/06 06:11
53F:推 kimisawa : 马的干连谷歌繁中翻译都被简中污染 11/06 06:38
54F:→ DrTech : 这根本是学者为了骗经费而说的话。google 搜寻引擎 11/06 07:12
55F:→ DrTech : 搜到一堆简体与政治立场不正确的资料,怎麽不自己研 11/06 07:12
56F:→ DrTech : 发一套取代Google搜寻的工具? 怎麽不自己建立搜寻 11/06 07:12
57F:→ DrTech : 引擎所需资料? 资料品质差,繁体中文资料较少,根 11/06 07:12
58F:→ DrTech : 本不是最大的问题,不然政府与学者早就该研发繁体中 11/06 07:12
59F:→ DrTech : 文搜寻引擎取代google了。 11/06 07:12
60F:→ DrTech : 最大的问题是,连世界上最厉害的OpenAI与ChatGPT都 11/06 07:15
61F:→ DrTech : 没在分繁简体知识或任何国籍语言,才会有好的效果。 11/06 07:15
62F:→ DrTech : 政府与学者却为了政治目的,违背科学原理,开倒车训 11/06 07:16
63F:→ DrTech : 练一个狭隘知识的模型。 11/06 07:16
64F:→ DrTech : 防堵中国偏见言论,我赞同。但防堵简体中文知识,完 11/06 07:18
65F:→ DrTech : 全是违背科学原理的做法。 11/06 07:18
66F:→ DrTech : 最简单的做法其实是:不要排除简体中文知识,但过滤 11/06 07:23
67F:→ DrTech : 政治意图资料,才是全世界研究LLM的主流做法。不信 11/06 07:23
68F:→ DrTech : 可以去看各国论文。 11/06 07:23
69F:→ DrTech : 另外,怎麽不说:"繁中资料量落後英文,不利台AI语 11/06 07:31
70F:→ DrTech : 言模型呢?" 为了骗经费,政治目的,科学与逻辑都变 11/06 07:31
71F:→ DrTech : 差了。 11/06 07:31
72F:→ zzahoward : 因为没能力去做AI筛选阿XDDD 11/06 08:13
73F:嘘 boom1227 : 真的有人信这种? 11/06 08:14
74F:→ boom1227 : Ai模型会看不懂简体? 11/06 08:14
75F:→ ob962 : 少不一定不好 八卦这麽多真知灼见怎麽不拿来用 11/06 08:23
76F:→ faniour : 简中论坛的知识库狂甩繁中10年以上 11/06 08:28
77F:→ faniour : ptt跟本悲哀 11/06 08:29
78F:→ Eriri : PTT一堆没营养的资讯 没什麽知识成分 然後呛来呛去 11/06 08:42
79F:→ Eriri : 的 能有用才怪 11/06 08:42
80F:推 suninrain : 其实查资料比较常查的是英文的,AI应该可以用台湾常 11/06 08:45
81F:→ suninrain : 用搜寻语系做一个参考,不必局限繁中跟简中 11/06 08:46
82F:→ suninrain : 不同行业的常用语言应该也会有蛮大的差异 11/06 08:47
83F:推 Bugquan : 看有的推文就知道,为何繁中资料没用 11/06 09:08
84F:→ unima : 塔绿班课纲教出一堆没文化中文奇烂无比的学生,跟人 11/06 09:45
85F:→ unima : 家比什麽中文?! 11/06 09:45
86F:推 physicsdk : 讲得好像对岸的论坛就多有营养一样,落後的问题才 11/06 09:49
87F:→ physicsdk : 不在这 11/06 09:49
88F:→ physicsdk : 要也是记者随便抄ptt当新闻这种行为 11/06 09:50
89F:推 blargelp : 满惨的 人口太少只能用劣等文化的资料库 11/06 09:53
90F:推 gmoz : 因为AI经费都拿去发给颜色正确的接标案啊 嘻嘻 11/06 10:42
91F:→ rogergon : 再不然就加个简繁语汇关键字转换外挂吧 11/06 10:58
92F:推 yudofu : google只是搜寻,又不灌输立场,跟语言模型比,笑死 11/06 11:02
93F:推 DrTech : 语言模型只是计算,又不灌输立场,跟搜寻引擎比,笑 11/06 11:55
94F:→ DrTech : 死。 11/06 11:55
95F:→ DrTech : 搜寻引擎的演算法与架构,绝对比语言模型更"不中立" 11/06 11:59
96F:→ DrTech : ,光是google的排序,广告,地域,都是被控制的。 11/06 11:59
97F:→ DrTech : 想解决LLM有政治偏见,然後不解决更常用的搜寻引擎 11/06 11:59
98F:→ DrTech : 或媒体有偏见。不是骗钱是什麽。 11/06 11:59
99F:→ NexusPrime : 台湾的杂志报纸不够多吗? 从古早以前国民党刚来到 11/06 12:14
100F:→ NexusPrime : 现在也累积很多了吧? 只怕是怕古早以前的都没有数 11/06 12:14
101F:→ NexusPrime : 位化或消失了 11/06 12:14
102F:嘘 snoopy920 : 天才 11/06 12:36
103F:推 physicsdk : 93楼中肯,搜寻引擎超好控制的,媒体舆论都超容易 11/06 12:54
104F:→ physicsdk : 被这种演算法把持得死死的 11/06 12:54
105F:→ physicsdk : 它不用灌输立场,只要选择性地让特定立场的资讯更 11/06 12:55
106F:→ physicsdk : 容易浮上台面就行了 11/06 12:55
107F:→ Merkle : 繁中使用人数就是比简中少 11/06 12:56
108F:嘘 D600dust : 还在火星文 这人是昭和年代的老害吗 11/06 13:04
109F:推 bizer : 国力强人多是优势阿,同理哪个ai不管英文只有繁中 11/06 13:22
110F:嘘 trh123h : 不能用那为啥不用ChatGPT 11/06 13:31
111F:→ iwanowsky : 那就先做个模型把简中翻译成繁中不行? 11/06 14:22
112F:推 EPIRB406 : 软硬体知识很多也都是简体的,台湾没什麽在分享 11/06 15:55
113F:→ yudofu : 搜寻人为调整跟训练资料导致不同推论的能比?要讲人 11/06 16:51
114F:→ yudofu : 为干预的话什麽都可以用阴谋论结案那还有甚麽好讨论 11/06 16:53
115F:→ yudofu : 的?一群天才.... 11/06 16:53
116F:推 kkmoon5566 : 理由伯 11/06 18:29
117F:推 WWIII : 网军24小时轮班也很难赢 11/06 19:21
118F:→ laechan : 台湾一堆别人翻好的不用自己生成 11/06 19:44
119F:推 physicsdk : 嗯嗯,所以繁中资料量不足,要怎麽解决? 简中要参 11/06 20:23
120F:→ physicsdk : 考吗? 还是中共国的我们都不该用,你阴谋论?XD 11/06 20:23
121F:推 Alphaz : 好高骛远 自不量力 11/06 21:35
122F:→ odahawk : 不会改作台语AI吗 11/07 08:50
123F:推 tomer : 直到2000年代初期繁中资料量都还是赢的w 11/07 09:28
124F:→ yunf : 亚洲四小龙概念? 11/07 10:02
125F:→ yunf : 不要缘木求鱼好吗? 11/07 10:03
126F:→ yunf : 重点是应该发展适合台湾的技术吧 11/07 10:06
127F:→ yunf : 要引入别人的资料会不会有智财相关问题? 11/07 10:06
128F:→ yunf : 这种东西早该知道的到底是谁在搞? 11/07 10:07
129F:→ yunf : 有种问题叫作明知故问! 11/07 10:08
130F:→ yunf : 30岁以下基本被洗脑的差不多了 11/07 10:09
131F:→ PTTOnline : 全世界华语国家及地区只有塔绿斑岛还在用繁体 11/07 10:14
132F:→ PTTOnline : 连香港现在都越来越多人用简体字,台湾还要锁岛多久 11/07 10:15
133F:→ yunf : 就是没有中心思想的才会慢慢被赤化 11/07 10:16
134F:→ yunf : 因为你根本就不知道学正体中文的意义在哪 11/07 10:18
135F:→ yunf : 你知道英国皇室菜单上用的是法文吗? 11/07 10:20
136F:→ yunf : 欧洲学界都要学拉丁文这件事知多少? 11/07 10:20
137F:→ yunf : 繁中都学不完了更何况小篆 11/07 10:21
138F:→ yunf : 随便讲几条就够你查到昏头 11/07 10:23
139F:→ yunf : 早说了他们花数百亿美金建构的东西根本不堪一击 11/07 10:30
140F:→ yunf : 教你用残体只是方便管理而已你以为是什麽? 11/07 10:36
141F:→ yunf : 你懂法文吗? 你懂拉丁文吗? 11/07 10:37
142F:→ yunf : 虽然不该在工人版讲这个但千万别以为你看到的 11/07 10:38
143F:→ yunf : 就是趋势 11/07 10:38
144F:→ yunf : 很多道理不是每个人都需要懂的 11/07 10:39
145F:→ yunf : 不要再积非成是了 11/07 10:39
146F:→ yunf : 现在即便念到硕士也只代表那个学位的专业而已,不代 11/07 10:55
147F:→ yunf : 表他文化水平!这就是西化的结果分工越来越细当你的 11/07 10:55
148F:→ yunf : 工作是个轮子就永远看不到方向盘在干嘛只能照着命令 11/07 10:55
149F:→ yunf : 做! 11/07 10:55
150F:→ dbai20 : 我说就是正体字和残体字,正体字是宝藏,我们要珍惜 11/07 13:34
151F:→ dbai20 : 没有什麽繁体简体,就是正体和残体啦 11/07 13:35
152F:推 yudofu : 是不是跟能不能是两回事,就算同样繁体资料,如果 11/07 18:34
153F:→ yudofu : 同样繁体用户加起来,可能香港也会觉得台湾资料太多 11/07 18:35
154F:→ yudofu : 、简中资料库马来华人也不一定同意训练出来的结果 11/07 18:35
155F:→ yudofu : 至於把简体字当进步的可能是他们的脑容量有差到这几 11/07 18:37
156F:→ yudofu : KB吧,对这些脑容量有限的也不适宜讲太多爆他们脑。 11/07 18:38
157F:→ yudofu : 否则整天抄袭拼音文字科技的应该赶快完成他们未完成 11/07 18:39
158F:→ yudofu : 的中文拉丁化梦想吧。 11/07 18:40
159F:嘘 wesson : 连基本翻译都不会了还要训练其他参数? 11/07 21:33
160F:推 ipojay : 人口基数就在那边 11/07 22:14







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP