Tech_Job 板


LINE

https://ec.ltn.com.tw/article/paper/1613748 繁中資料量落後簡中 不利台AI語言模型 2023/11/05 05:30 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/119.jpg
國科會推動台版生成式AI,結合產官學研開發「TAIDE」,耗時4個月推出初階成果,投入 70億個參數量,幫AI上繁體中文課,前在自動摘要、翻譯文本、寫信、寫文章等都有不錯 表現。(資料照,記者吳柏軒攝) 國科會發展台版可信任AI對話引擎TAIDE 防堵中國偏見論述 https://img.ltn.com.tw/Upload/business/page/800/2023/11/05/120.jpg
國科會今年6月發表「可信任人工智慧對話引擎」(TAIDE)7B模型。國科會主委吳政忠( 左)表示,TAIDE是「打地基」,未來將提供公私部門加值應用,並守住台灣擁有的珍貴 繁體中文語料。(中央社資料照) 〔記者歐宇祥/台北報導〕近年中國影視創作、短影音平台大舉跨境滲透台灣,時而引發 對台認知作戰的疑慮,且台灣發展生成式AI(人工智慧)等技術也須留意資料準確性、以 免生出不當答案。AI領域專家坦言,目前繁體中文資料量遠少於簡體中文,加上台灣網路 社群的知識性分享風氣相對不盛,對我國開發AI大型語言模型相當不利。 台算力、資料資源相對有限 ChatGPT帶動AI軍備競賽,我國政府是由國科會發展「可信任人工智慧對話引擎」(TAIDE )計畫,產官學各自前進;不過發展AI燒錢,台灣算力、資料等資源都相對有限,研究單 位資金更緊缺,日前研究經費僅約三十萬的中研院AI語言模型,因出現中國觀點的回應, 引起軒然大波。 中研院資通安全專題中心執行長李育杰指出,生成式AI需要大量文本資料用做訓練、再運 用機器運算進行「接龍」、產出內容,受資料集影響大;而中研院爭議是源自於使用的 Llama 2模型,因含有中國資料集、易產生相應觀點答案,加上中企、研究單位大力投入 AI研發,都凸顯台灣需要自己的大型語言模型。 台灣人工智慧協會理事黃逸華分析,目前開發AI模型可將簡中資料轉換成繁中,或將簡中 資料剃除,但繁中資料量相對較少,可能使AI模型較容易出現幻覺(Hallucinations;即 無法作答的空白,可能以虛構來填補答案),或功能會較為侷限,且此問題是十數年積累 、短期難解,若使用PTT等平台資料,處理成本又高。 李育杰也認為,PTT、Dcard等台灣本土社群的用語生命週期短,加上資料雜亂可能蘊含謾 罵、火星文,品質不一定好,若要用在AI大型語言模型訓練需再經處理;即使都以繁中資 料訓練,AI仍可能生成不如預期的答案,以現行技術無法一○○%掌控規則與結果,只能 盡量隔絕不希望AI學習的資料與內容。 -- 沒說小乘大乘上座部佛教馬哈希尊者《具戒經講記》拆穿佛教大乘經典的騙局 上座部佛教明昆《南傳菩薩道》真釋迦牟尼佛的菩薩成佛之道 大乘菩薩成佛之道 妙法蓮華經 華嚴經 心經 金剛經 楞伽經 梵網經菩薩戒 圓覺經 楞嚴經大乘假佛經 阿彌陀佛 藥師佛大乘假觀世音 文殊 普賢 維摩詰 龍樹 地藏王大乘假菩薩 https://webptt.com/m.aspx?n=bbs/soul/M.1523979060.A.68C.html 上座部佛教目犍連子帝須那先偽經大乘十方諸佛 --
QR Code



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.165.15 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Tech_Job/M.1699186695.A.5A6.html
1F:→ jupei : 還不都中文 有差? 11/05 20:50
2F:→ Skydier : 上次不是被抓包套皮中國的系統 11/05 20:55
3F:推 physicsdk : 我不會說沒差,但既然簡中有優勢,就還是需要多參 11/05 20:58
4F:→ physicsdk : 考求自己進步,不能為反而反 11/05 20:58
5F:推 gino0717 : 除了政治話題外有什麼資料是繁中有簡中沒有的 11/05 21:03
6F:推 a22222a4210 : 繁轉簡沒啥問題 簡轉繁很多字會轉不過來 11/05 21:08
7F:噓 yunf : 這原本就是一個政治操作原本就只有2000多萬人口的產 11/05 21:10
8F:→ yunf : 出要怎麼會多過13億人口的產出你可以說這是一個與愛 11/05 21:10
9F:→ yunf : 發展的困境也可以說他根本就不是一個問題這個問題會 11/05 21:10
10F:→ yunf : 產生完全是因為你選擇使用這樣的方向發展而不是使用 11/05 21:10
11F:→ yunf : 一個量少質精的方向發展會遇到這種問題根本就是遲早 11/05 21:10
12F:→ yunf : 的事別把大家都當白癡耍 11/05 21:11
13F:→ yunf : 聰明的鄉民應該要去追溯這則新聞到底是誰出的還有誰 11/05 21:12
14F:→ yunf : 決策這些東西發展的方向自然就會水落石出! 11/05 21:12
15F:→ kevinmeng2 : 自由時報…呵呵,不演了? 11/05 21:35
16F:推 guf60152 : AI本身就大數據 能贏我才覺得有鬼吧 11/05 21:36
17F:→ kissmickey : 都抄的當然落後 11/05 22:06
18F:推 ohohohya : 自己不累積啊 先出錢翻譯國外文件 11/05 22:21
19F:噓 TISH12311 : 乾脆繁轉英還比較有用 11/05 22:26
20F:推 j0958322080 : 中國連 stackoverflow 都翻成簡體了 11/05 22:33
21F:噓 ccas : 等一下,中研院不是已經切割說是「個人研究」嗎? 11/05 22:46
22F:→ ccas : 結果現在又開始出來說沾光? 11/05 22:46
23F:推 BIOS : 簡中資源量一直都是屌打繁中.... 11/05 22:53
24F:噓 chunfo : 台灣是全世界最鄙視翻譯的地方 11/05 22:54
25F:推 rogergon : 當然有差,簡中LLM弄出來的用詞就是對岸的。 11/05 23:19
26F:→ DrizztMon : 不是簡中是屌打繁中,但這樣世界各地其他國家怎麼辦 11/05 23:33
27F:→ DrizztMon : 又不是被屌打就做不出來 11/05 23:33
28F:推 gn01216674 : 理由伯 11/05 23:41
29F:推 centra : 科技業不烙個英文單字就弱了 11/05 23:45
30F:推 ciplu : 新聞現在都用水平了 沒在用水準 早就被統一 11/05 23:50
31F:推 centra : 還不如花錢讓全國人民英語能力提升 11/05 23:50
32F:→ ciplu : 連用詞都慢慢被同化 直接用簡轉繁訓練算了 11/05 23:51
33F:推 gn01216674 : 上次還聽到新聞說「質量」....聽了搖頭 11/05 23:56
34F:推 Lhmstu : 放棄吧,台灣不可能搞這個 11/05 23:58
35F:推 Ron51320 : 所以數位部還在搞麵線嗎? 11/06 00:17
36F:噓 lovebridget : 哦 要合理化直接爽抄中國又爽拿台灣經費了 11/06 00:17
37F:推 lwamp : 就是找個藉口要錢啦,然後花了大錢又做一個垃圾出 11/06 00:19
38F:→ lwamp : 來 11/06 00:19
39F:→ lavign : 繁中資料集也只是ChatGPT的一點點而已 11/06 00:23
40F:推 s1an : 不忍苛責CKIP 有問題的是沒搞懂又亂發新聞的人 11/06 00:47
41F:推 crey : 兩千多萬人的資料產出想大於13億人?這數量差太多了 11/06 01:59
42F:噓 HenryLin123 : 合理化支語仔行為 11/06 02:00
43F:推 menesn : 對普通台灣人如我,最好的選擇就是把英文跟簡中都練 11/06 02:13
44F:→ menesn : 繁中我不指望了 11/06 02:13
45F:推 drakd4d : 人家有知乎,繁中有啥?Dcard幻想文?覺青廢文,還 11/06 06:05
46F:→ drakd4d : 是白飯新聞? 11/06 06:05
47F:→ drakd4d : 就沒什麼知識性的討論,人民也不愛看書,自己變弱勢 11/06 06:05
48F:→ drakd4d : 文化怪誰? 11/06 06:05
49F:→ drakd4d : AI剛好就是加速淘汰弱勢文化而已 11/06 06:05
50F:推 drakd4d : Garbage in Garbage out 11/06 06:09
51F:推 drakd4d : 最佳解法就是學新加坡變英語系國家,不然講中文逃不 11/06 06:11
52F:→ drakd4d : 了 11/06 06:11
53F:推 kimisawa : 馬的幹連谷歌繁中翻譯都被簡中污染 11/06 06:38
54F:→ DrTech : 這根本是學者為了騙經費而說的話。google 搜尋引擎 11/06 07:12
55F:→ DrTech : 搜到一堆簡體與政治立場不正確的資料,怎麼不自己研 11/06 07:12
56F:→ DrTech : 發一套取代Google搜尋的工具? 怎麼不自己建立搜尋 11/06 07:12
57F:→ DrTech : 引擎所需資料? 資料品質差,繁體中文資料較少,根 11/06 07:12
58F:→ DrTech : 本不是最大的問題,不然政府與學者早就該研發繁體中 11/06 07:12
59F:→ DrTech : 文搜尋引擎取代google了。 11/06 07:12
60F:→ DrTech : 最大的問題是,連世界上最厲害的OpenAI與ChatGPT都 11/06 07:15
61F:→ DrTech : 沒在分繁簡體知識或任何國籍語言,才會有好的效果。 11/06 07:15
62F:→ DrTech : 政府與學者卻為了政治目的,違背科學原理,開倒車訓 11/06 07:16
63F:→ DrTech : 練一個狹隘知識的模型。 11/06 07:16
64F:→ DrTech : 防堵中國偏見言論,我贊同。但防堵簡體中文知識,完 11/06 07:18
65F:→ DrTech : 全是違背科學原理的做法。 11/06 07:18
66F:→ DrTech : 最簡單的做法其實是:不要排除簡體中文知識,但過濾 11/06 07:23
67F:→ DrTech : 政治意圖資料,才是全世界研究LLM的主流做法。不信 11/06 07:23
68F:→ DrTech : 可以去看各國論文。 11/06 07:23
69F:→ DrTech : 另外,怎麼不說:"繁中資料量落後英文,不利台AI語 11/06 07:31
70F:→ DrTech : 言模型呢?" 為了騙經費,政治目的,科學與邏輯都變 11/06 07:31
71F:→ DrTech : 差了。 11/06 07:31
72F:→ zzahoward : 因為沒能力去做AI篩選阿XDDD 11/06 08:13
73F:噓 boom1227 : 真的有人信這種? 11/06 08:14
74F:→ boom1227 : Ai模型會看不懂簡體? 11/06 08:14
75F:→ ob962 : 少不一定不好 八卦這麼多真知灼見怎麼不拿來用 11/06 08:23
76F:→ faniour : 簡中論壇的知識庫狂甩繁中10年以上 11/06 08:28
77F:→ faniour : ptt跟本悲哀 11/06 08:29
78F:→ Eriri : PTT一堆沒營養的資訊 沒什麼知識成分 然後嗆來嗆去 11/06 08:42
79F:→ Eriri : 的 能有用才怪 11/06 08:42
80F:推 suninrain : 其實查資料比較常查的是英文的,AI應該可以用台灣常 11/06 08:45
81F:→ suninrain : 用搜尋語系做一個參考,不必侷限繁中跟簡中 11/06 08:46
82F:→ suninrain : 不同行業的常用語言應該也會有蠻大的差異 11/06 08:47
83F:推 Bugquan : 看有的推文就知道,為何繁中資料沒用 11/06 09:08
84F:→ unima : 塔綠班課綱教出一堆沒文化中文奇爛無比的學生,跟人 11/06 09:45
85F:→ unima : 家比什麼中文?! 11/06 09:45
86F:推 physicsdk : 講得好像對岸的論壇就多有營養一樣,落後的問題才 11/06 09:49
87F:→ physicsdk : 不在這 11/06 09:49
88F:→ physicsdk : 要也是記者隨便抄ptt當新聞這種行為 11/06 09:50
89F:推 blargelp : 滿慘的 人口太少只能用劣等文化的資料庫 11/06 09:53
90F:推 gmoz : 因為AI經費都拿去發給顏色正確的接標案啊 嘻嘻 11/06 10:42
91F:→ rogergon : 再不然就加個簡繁語彙關鍵字轉換外掛吧 11/06 10:58
92F:推 yudofu : google只是搜尋,又不灌輸立場,跟語言模型比,笑死 11/06 11:02
93F:推 DrTech : 語言模型只是計算,又不灌輸立場,跟搜尋引擎比,笑 11/06 11:55
94F:→ DrTech : 死。 11/06 11:55
95F:→ DrTech : 搜尋引擎的演算法與架構,絕對比語言模型更"不中立" 11/06 11:59
96F:→ DrTech : ,光是google的排序,廣告,地域,都是被控制的。 11/06 11:59
97F:→ DrTech : 想解決LLM有政治偏見,然後不解決更常用的搜尋引擎 11/06 11:59
98F:→ DrTech : 或媒體有偏見。不是騙錢是什麼。 11/06 11:59
99F:→ NexusPrime : 台灣的雜誌報紙不夠多嗎? 從古早以前國民黨剛來到 11/06 12:14
100F:→ NexusPrime : 現在也累積很多了吧? 只怕是怕古早以前的都沒有數 11/06 12:14
101F:→ NexusPrime : 位化或消失了 11/06 12:14
102F:噓 snoopy920 : 天才 11/06 12:36
103F:推 physicsdk : 93樓中肯,搜尋引擎超好控制的,媒體輿論都超容易 11/06 12:54
104F:→ physicsdk : 被這種演算法把持得死死的 11/06 12:54
105F:→ physicsdk : 它不用灌輸立場,只要選擇性地讓特定立場的資訊更 11/06 12:55
106F:→ physicsdk : 容易浮上檯面就行了 11/06 12:55
107F:→ Merkle : 繁中使用人數就是比簡中少 11/06 12:56
108F:噓 D600dust : 還在火星文 這人是昭和年代的老害嗎 11/06 13:04
109F:推 bizer : 國力強人多是優勢阿,同理哪個ai不管英文只有繁中 11/06 13:22
110F:噓 trh123h : 不能用那為啥不用ChatGPT 11/06 13:31
111F:→ iwanowsky : 那就先做個模型把簡中翻譯成繁中不行? 11/06 14:22
112F:推 EPIRB406 : 軟硬體知識很多也都是簡體的,台灣沒什麼在分享 11/06 15:55
113F:→ yudofu : 搜尋人為調整跟訓練資料導致不同推論的能比?要講人 11/06 16:51
114F:→ yudofu : 為干預的話什麼都可以用陰謀論結案那還有甚麼好討論 11/06 16:53
115F:→ yudofu : 的?一群天才.... 11/06 16:53
116F:推 kkmoon5566 : 理由伯 11/06 18:29
117F:推 WWIII : 網軍24小時輪班也很難贏 11/06 19:21
118F:→ laechan : 台灣一堆別人翻好的不用自己生成 11/06 19:44
119F:推 physicsdk : 嗯嗯,所以繁中資料量不足,要怎麼解決? 簡中要參 11/06 20:23
120F:→ physicsdk : 考嗎? 還是中共國的我們都不該用,你陰謀論?XD 11/06 20:23
121F:推 Alphaz : 好高騖遠 自不量力 11/06 21:35
122F:→ odahawk : 不會改作台語AI嗎 11/07 08:50
123F:推 tomer : 直到2000年代初期繁中資料量都還是贏的w 11/07 09:28
124F:→ yunf : 亞洲四小龍概念? 11/07 10:02
125F:→ yunf : 不要緣木求魚好嗎? 11/07 10:03
126F:→ yunf : 重點是應該發展適合台灣的技術吧 11/07 10:06
127F:→ yunf : 要引入別人的資料會不會有智財相關問題? 11/07 10:06
128F:→ yunf : 這種東西早該知道的到底是誰在搞? 11/07 10:07
129F:→ yunf : 有種問題叫作明知故問! 11/07 10:08
130F:→ yunf : 30歲以下基本被洗腦的差不多了 11/07 10:09
131F:→ PTTOnline : 全世界華語國家及地區只有塔綠斑島還在用繁體 11/07 10:14
132F:→ PTTOnline : 連香港現在都越來越多人用簡體字,台灣還要鎖島多久 11/07 10:15
133F:→ yunf : 就是沒有中心思想的才會慢慢被赤化 11/07 10:16
134F:→ yunf : 因為你根本就不知道學正體中文的意義在哪 11/07 10:18
135F:→ yunf : 你知道英國皇室菜單上用的是法文嗎? 11/07 10:20
136F:→ yunf : 歐洲學界都要學拉丁文這件事知多少? 11/07 10:20
137F:→ yunf : 繁中都學不完了更何況小篆 11/07 10:21
138F:→ yunf : 隨便講幾條就夠你查到昏頭 11/07 10:23
139F:→ yunf : 早說了他們花數百億美金建構的東西根本不堪一擊 11/07 10:30
140F:→ yunf : 教你用殘體只是方便管理而已你以為是什麼? 11/07 10:36
141F:→ yunf : 你懂法文嗎? 你懂拉丁文嗎? 11/07 10:37
142F:→ yunf : 雖然不該在工人版講這個但千萬別以為你看到的 11/07 10:38
143F:→ yunf : 就是趨勢 11/07 10:38
144F:→ yunf : 很多道理不是每個人都需要懂的 11/07 10:39
145F:→ yunf : 不要再積非成是了 11/07 10:39
146F:→ yunf : 現在即便念到碩士也只代表那個學位的專業而已,不代 11/07 10:55
147F:→ yunf : 表他文化水平!這就是西化的結果分工越來越細當你的 11/07 10:55
148F:→ yunf : 工作是個輪子就永遠看不到方向盤在幹嘛只能照著命令 11/07 10:55
149F:→ yunf : 做! 11/07 10:55
150F:→ dbai20 : 我說就是正體字和殘體字,正體字是寶藏,我們要珍惜 11/07 13:34
151F:→ dbai20 : 沒有什麼繁體簡體,就是正體和殘體啦 11/07 13:35
152F:推 yudofu : 是不是跟能不能是兩回事,就算同樣繁體資料,如果 11/07 18:34
153F:→ yudofu : 同樣繁體用戶加起來,可能香港也會覺得台灣資料太多 11/07 18:35
154F:→ yudofu : 、簡中資料庫馬來華人也不一定同意訓練出來的結果 11/07 18:35
155F:→ yudofu : 至於把簡體字當進步的可能是他們的腦容量有差到這幾 11/07 18:37
156F:→ yudofu : KB吧,對這些腦容量有限的也不適宜講太多爆他們腦。 11/07 18:38
157F:→ yudofu : 否則整天抄襲拼音文字科技的應該趕快完成他們未完成 11/07 18:39
158F:→ yudofu : 的中文拉丁化夢想吧。 11/07 18:40
159F:噓 wesson : 連基本翻譯都不會了還要訓練其他參數? 11/07 21:33
160F:推 ipojay : 人口基數就在那邊 11/07 22:14







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP