作者pbice (Pbice)
看板Linguistics
标题Re: [请益] corpus
时间Sun Apr 6 17:35:41 2008
※ 引述《moistwin (winner)》之铭言:
: 想请问 what is computer corpus (or machine-readable corpus)?
: And, what is linguistically annotated corpus??
在电脑普及之前,有些语料库并不是使用电脑分析的。比方说,Quirk等人先做了大规模
的问卷调查,再据此写成着名的《A Comprehensive Grammar of the English Language》
。
1960年代,Kucera和Francis建立Brown Corpus,是世界上第一个电脑语料库,达到100万
字的规模。Brown Corpus包含500篇文章,每篇2000字。当然,以现代的观点来看,Brown
Corpus只是「迷你」语料库,但在电脑尚未普及的时代,可说是一大创举了,也由此开启
了语料库语言学之路。
有些语料库是没有添加任何标记(annotation)的,特别是早期的语料库、以及第二语言语
料库。不过,为了便於检索、研究,大多数的语料库都会加上标记,语料标记端视研究目
的而定,除了标记词性以外,也有句法、语音、语用、风格等标记。
早期语料库的标记例如:
present_NN1 (singular common noun)
present_VVB (base form of a lexical verb)
present_JJ (general adjective)
现代的语料库则借监标记语言(markup language),采用XML来标记,用起始和结束两种标
签,将文本包在其中。例如:
<w pos="t">现在</w>
<w pos="w">,</w>
<w pos="r">我</w>
<w pos="n">代表</w>
<w pos="m">第十五</w>
然而,古典语料库学者John Sinclair认为,语料库不该添加标记。因为不论是人工标记、
还是用演算法自动标记,必定会有错误。不过,像这种极端的意见毕竟是少数。现在,
我们所熟知的语料库,大多都是经过标记的电脑语料库了。
【延伸阅读】
1. Brown Corpus, Wikipedia
http://en.wikipedia.org/wiki/Brown_Corpus
2. 黄希敏〈语料语言学概述〉《敦煌电子报》
http://cet.cavesbooks.com.tw/htm/m0131100.htm
3. Wynne, M. (Ed.). (2005). Developing linguistic corpora: A guide to good
practice. Oxford: Oxbow Books.
http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.122.111.130
1F:推 moistwin:超详细的~~~~谢谢p大~~~~~^^ 04/06 17:56