Soft_Job 板


LINE

先说结论: 发展本土化,繁体中文LLM模型,然後期待这个模型能让大家使用,根本是错误方向。不知道这些专家学者,是在骗经费,还是还没想清楚产业到底缺什麽。 --- 如果今天你使用Google搜寻,搜到"台湾是中国的",或任何有政治偏见的相关文章。 你会不会觉得Google很烂? 所以我们台湾应该要发展一个"繁体,本土"的搜寻引擎取代google? 即使真的做出来了,台湾版google搜寻: 一个只能搜少量英文,繁体,台湾本土资讯的搜寻系统,可被搜寻到的内容还无法一直更新, 有多少商业价值? 这种搜寻引擎,别期待能做什麽产业的应用。 可成为大家可沿用的基础系统, 这类搜寻引擎本身没有什麽实用性。 这时重点反而要放在,我们能不能把这搜寻引擎变成工具,内部可以换成自己想要的资料来赚钱。里面资料有偏见,不通用,根本没差。 我有了工具,自己改就好。 (ElasticSearch就是走这条路) 同样的道理也适用於台湾的 LLM/AI的发展。 现在新闻看到的内容,政府相关单位发展AI的模式都很好笑: 因为模型有偏见,所以我们要产出一个本土化知识,繁体中文,专属於台湾的LLM。之後可能还会包装,这模型兼顾国际化,英文能力也还可以。 实际上这种丢弃大量英文与简体中文知识的模型,能力与後续潜力是绝对不如LLaMA2 (或其他不分地域语料的模型)的发展方式的。 如果OpenAI ChatGPT 丢弃大量全球知识,只能输出台湾本土知识,你还会用吗? 过分强调本土化,繁体化的模型根本没意义。 最後台湾产官学只会输出一堆,号称本土化,产业化,繁体中文大模型。 结果每个模型能力,都不如免费的ChatGPT网页版,或都不如LLaMA2用多语言fine-tune的模型。因为只用繁体知识,本土知识,训练资料量,与跨语言知识量,推理能力,差太多了。 Demo当然没问题,问训练资料内有的就好。 但稍微问偏一点的,通用能力完全不如任何全域不分国界的开源模型。 计画结束了,也永远不会更新模型新知识。这类LLMs的发展,就如只能搜台湾知识的搜寻引擎,实用性被严重限制。 所以,在台湾做任何LLM研发,本土化知识,繁体中文输出的LLM根本不是重点。 产出任何LLM意义都不大。 真正的重点,应该是要发展自主的LLM工具, 让各界能够任意修改LLM能力。 能不能让台湾各企业,能换上自己公司的专有资料产生专属的LLM,在各行各业都能取代部分人力,这才是重要的。 台湾真正需要的, 不是只能搜繁体中文知识都搜寻引擎。 不是只能看台湾知识的短影片APP。 不是只能输出台湾本土知识与繁体中文的LLM。 而是发展适合中小企业可训练LLM的简易工具。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.188.61 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1697308441.A.C83.html
1F:→ BoXeX: 学术研究本来就是做玩具 10/15 02:40
2F:→ BoXeX: 以现在AI发展速度 你要商用还不如多等个几年 10/15 02:40
3F:→ BoXeX: 等技术都成熟了再拿来用 10/15 02:40
4F:→ BoXeX: 除非你公司跟google微软一样有钱 可以成为技术的领头羊 10/15 02:44
5F:→ BoXeX: 不然你在那边开发半天 可能比不上未来人家call一行API 10/15 02:45
6F:推 DrizztMon: 关键字 骗经费 10/15 07:50
7F:推 Lhmstu: 比较有经费 10/15 09:43
8F:嘘 askaleroux: 这麽说不就等 OpenAI Meta就好 10/15 10:51
9F:推 una283: 本来中研院只是一个小组在做中文断句研究 10/15 11:10
10F:→ una283: 结果一下子被openAI超车只能跑去做明清文书做市场区隔 10/15 11:11
11F:→ una283: 但选举的时候总是要拿出点成绩交待谁叫数发部太废 10/15 11:12
12F:→ una283: 就这麽被推上火线 10/15 11:12
13F:推 neo5277: 虽然是实在话但是这样台湾价值不构不会有经费 10/15 15:20
14F:推 lukelove: 台湾价值留给专门的公司做就好了 其他公司做了也拿不到 10/15 16:54
15F:→ lukelove: 钱 10/15 16:54
16F:推 francej: 说穿了就是骗研究经费啊 不过人家有靠山 到最後只要 10/15 17:00
17F:→ francej: 生出个几篇paper交差了事就好了 10/15 17:01
18F:→ francej: 当国产搜寻引擎都搞不起来了 现在生成式AI运算成本更高 10/15 17:02
19F:→ francej: 自己土炮的系统到最後一定是不了了之 10/15 17:03
20F:→ tsrn46336686: 政府自己都不重视建立资料库了,凭啥觉得 Google 或 10/18 05:08
21F:→ tsrn46336686: Meta 会想来做 10/18 05:08
22F:推 Mchord: 骗经费 10/19 00:59
23F:嘘 hizuki: 怎麽叫本土?金马非台算本土吗?日本时代是好棒棒还是殖民 10/19 10:38
24F:推 oachan: 领域知识或是本土知识还是很重要的,在OpenAI等国外的LLM 10/21 10:13
25F:→ oachan: 大宗还是英文知识。需要引用到相关知识大宗还是得靠RAG手 10/21 10:13
26F:→ oachan: 法,但是这方法还是有局限性。但想复现LLM训练,台湾的资 10/21 10:13
27F:→ oachan: 料量级跟算力也很难匹即。 10/21 10:13
28F:推 adamlin120: 繁体中文LLM让大家使用在这里 https://twllm.com 10/23 01:55
29F:→ adamlin120: 同意发展企业LLM(训练)解决方案 10/23 01:57







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP