作者CCY0927 (茹絮梦)
看板TW-language
标题Fw: [演讲] 台湾本土语料库之快速建置
时间Thu Dec 8 01:57:18 2022
※ [本文转录自 Linguistics 看板 #1ZaD3cMB ]
作者: CCY0927 (茹絮梦) 看板: Linguistics
标题: [演讲] 台湾本土语料库之快速建置
时间: Thu Dec 8 01:44:04 2022
https://ling.site.nthu.edu.tw/p/406-1400-240167,r5972.php?Lang=zh-tw
国立清华大学语言学研究所 新086次专题演讲
讲者:施孟贤 Meng-Hsien Shih (本所博士後研究员/国立中正大学通识中心)
讲题:台湾本土语料库之快速建置 Quick Construction of Taiwanese Corpora
时间:2022年12月14日(星期三),中午 12:30 开始
地点:人社院 B305 教室
---
台湾本土语料库之快速建置
Quick Construction of Taiwanese Corpora
施孟贤 [Simon Meng-Hsien Shih]
本所博士後研究员 / National Tsing Hua University
距史上第一个百万词英文语料库 Brown Corpus 问世已逾半世纪,COCA 美国当代英语语
料库(Corpus of Contemporary American English)亦於 2021 年达到十亿词规模,并
提供支援智慧词类检索之使用者介面。惟语料库的建置需大量人力和时间投入,因此台湾
各本土语言的语料库大多仍处於发展阶段,除了较具规模、具有断词和词类标记的客语语
料库已上线提供检索之外,台湾闽南语以及原住民族语的语料库仍仅有零星研究,并散见
於各网站。本研究整合现有教育部释出的闽南语和客家语常用词辞典的词目和例句,以及
原住民族语言研究发展基金会提供之族语 E 乐园 API,一同建置具断词处理和词类标记
的闽南语、客家语、以及 16 个原住民语言(族语未经词类标记)的语料库,并为台湾本
土语言学研究提供一语料库查询介面。未来经由本研究具断词和词类标记的闽客语训练语
料以及自动标记系统,将能进一步针对更多原本尚未断词的语料库进行处理,扩展本土语
料库的规模,并提供更广泛的词类检索功能。
关键词: 台湾闽南语, 台湾客语, 台湾南岛语, 语料
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.39.79.141 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Linguistics/M.1670435046.A.58B.html
※ 发信站: 批踢踢实业坊(ptt.cc)
※ 转录者: CCY0927 (114.39.79.141 台湾), 12/08/2022 01:57:18
1F:推 tbrs: 当代的语料 口语库比文库多很多 古代识字比例更少就更不必 12/09 20:52
2F:→ tbrs: 说了 12/09 20:52