作者KOTD (这只是代号)
看板KOTDFansClub
标题Fw: [问卦] 用PTT来训练AI语言模型会怎样
时间Tue Mar 14 22:36:21 2023
※ [本文转录自 Gossiping 看板 #1a38Nq02 ]
作者: Antihuman () 看板: Gossiping
标题: [问卦] 用PTT来训练AI语言模型会怎样
时间: Sat Mar 11 21:45:21 2023
PTT是台湾最大的讨论区之一,包含了许多不同主题的讨论版,从政治、经济、科技、娱乐
到生活、旅游等等,因此PTT的资料可以提供丰富的语言资源,进行大型语言模型的训练可
能会有以下的影响:
增加模型的多样性:PTT 的资料来源众多,而每个版的用语、词汇、语言风格都不同,因此
使用PTT的资料训练大型语言模型可以增加模型的多样性,使其更能够应对不同领域的自然
语言处理任务。
提升模型的台湾文化认知:PTT是一个台湾本土的讨论区,其中的文化内容和用语与台湾文
化紧密相关。训练大型语言模型使用PTT资料,可以使模型更加了解台湾文化和风俗,更好
地处理和生成相关的自然语言。
面临资料品质问题:PTT是一个公开的讨论区,其中包含了许多用户所发表的讯息,这些讯
息的品质可能不同,有些可能包含不合适的语言、错误的拼字和语法等问题。因此在使用PT
T资料训练语言模型时,需要注意滤除低质量的资料,以免对模型的训练产生负面影响。
总结来说,PTT的资料对於大型语言模型的训练具有一定的帮助,但需要注意资料品质问题
,以免对模型的训练产生不利影响。此外,也需要注意到PTT资料的局限性,不同於网际网
路上的其他资料,PTT资料集的涵盖面和语言风格可能会有所局限,因此训练出来的语言模
型在应用於其他领域时,可能需要进行适当调整。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.235.254.76 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1678542324.A.002.html
1F:→ k385476916: 没空 223.137.254.82 03/11 21:45
2F:→ dayend: ㄏㄏ~111.246.211.138 03/11 21:45
3F:→ pttOwO: 肛 36.228.19.236 03/11 21:46
4F:嘘 a27588679: 回答会有很多月工 180.177.33.135 03/11 21:46
5F:→ robrob99: 会出现一堆 哈哈哈哈 五楼 30cm123.194.136.130 03/11 21:46
6F:推 q2203649: 问他问题Ai只会回:肛 223.140.176.37 03/11 21:46
7F:推 Klan: 三句不离塔绿班 49.216.174.163 03/11 21:46
8F:推 v7q4: 不管问什麽都会回答:肛 111.248.118.76 03/11 21:47
9F:嘘 IntelNNP: 师大某剽窃狂魔当上教授的,会说她做完了 153.231.83.220 03/11 21:48
10F:→ LawLawDer: 肛 223.136.70.253 03/11 21:49
11F:推 uiorefd: 不是叫你肛 就是塔绿斑 或是叫你问五楼 220.134.66.178 03/11 21:50
12F:推 kidd085: 会被吉125.224.207.192 03/11 21:50
13F:推 bernie1: 完了 61.231.189.150 03/11 21:50
14F:→ lohaloha: 回答不出来会直接说你是塔绿班 180.217.7.167 03/11 21:51
15F:推 chigo520: 变成暴怒肥宅 125.228.244.66 03/11 21:53
16F:推 darkblue6404: a作者:darkblue6404 他的ChatPTT 125.230.162.3 03/11 21:54
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: KOTD (220.129.37.37 台湾), 03/14/2023 22:36:21