作者CCY0927 (茹絮梦)
看板TW-language
标题[资料] 胡长松的台语小说语料库
时间Sun Mar 16 22:18:05 2025
https://www.facebook.com/share/p/15B6hLjxLU/
【胡长松的台语小说语料库已全数公开】
各位朋友,我在此正式公告,我们团队总算完成了公开语料库所需的技术准备工作,并在
3/14日,已经把所有我本人的台语小说、超过100万字的语料库公开出来,提供给AI开源
训练专案和学术专案使用。在说明底下的技术方案之前,我要先感谢我所任职的公司台湾
大哥大资讯长、同时也是IMA理事长蔡祈岩先生,充分支持及授权给我运用IMA的资源及技
术团队来布建这个方案,除了感谢,还有感动!
我的语料目前已经转成了AI训练所需的语料库格式(此格式并不适於人的阅读,且可视作
者要求进行结构重组),3/14日起,全数挂载在IMA (中华民国资讯经理人协会)的
Hugging Face语料库,采取【Creative Commons CC具名授权,申请後提供存取】的管理
方式提供需要者使用,目前限非商业的AI训练专案和学术专案来申请。各界朋友,若您有
使用我的小说语料库的需要,操作说明如下:
1. 请点击
https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots
2. 您将需要登入Hugging Face帐号
3. 在「Dataset Card」页签点击「申请权限」按钮
4. 提交申请後,状态会变成「等待审核中」,我们会根据取得的帐号联系方式和您联系,
并进行核准程序
5. 审核通过後,您会收到电子邮件通知
6. 收到通知後,请再次打开前述语料库页面,就可以看到并存取完整资料集
另外,针对台语文学作家有志,这是咱欲予未来AI有法度读台语的「上起头」的行动,假
使你若有认同,邀请咱做伙用慷慨、旷阔的心来加入这个队阵。假使你若愿意,我嘛欢喜
用仝款的技术方案来支持你的行动,阮的团队会用仝款的方式、经过你的授权,共你上优
质的文字,照你佮意的方式(比如先拍碎、拍乱),囥伫我参与管理的NPO IMA的语料库
,提供予非商业的AI训练专案佮学术专案使用。欢迎你佮我连络!
各族母语作家,若您有同样的心志和技术需求,也都欢迎和我联系!
https://i.imgur.com/5JVLW7i.png
https://i.imgur.com/qkKPTBI.png
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.255.124.48 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/TW-language/M.1742134687.A.776.html
1F:推 evenme: 推 03/17 14:39