作者HotDesert (热啊!)
看板Linguistics
标题Re: [请益] 双语/翻译语料库的建立
时间Sun Dec 18 21:44:54 2016
※ 引述《chadlu (chadlu)》之铭言:
: 各位版友好:
: 小弟从事笔译工作
: 目前想针对不同领域的中英文本建立专属的平行语料库
: 作为之後的查询及参考之用
: 但因为本身对语料库这块还不是很了解,所以想跟各位请教以下几个问题:
: 1. 常见的Antconc是否可用於建立平行语料库? 若不行是否有其他推荐的软体?
: 2. 有没有软体可以自动撷取双语网站中的中英文语料?
: 3. 撷取完的文本该如何对齐(Alignment)?
: 以上,谢谢各位~
: PS. 若有相关的参考书籍或资料也欢迎跟我说 Thanks :)
不是很了解你的问题。拿平衡语料库做例子好了。
如果你跟词库购买平衡语料库,你拿到的是三百多
个xml档。当然,语料有tag并且以xml格式标好。
简单说,语料库就是一堆文章的集合。所以,回到你
的问题。什麽软体可以建语料库?Notepad ++就可以
了吧.... 那是一个编写程式用的纯文字编辑器....
自动撷取双语网站?没有听过有在提供类似软体,不
过你可以自己写爬虫去抓.... 如何对齐?看你用什麽
标准对齐啊.... 也可以自己写程式去做...
老实说,连keyword search或是concordancer这些很
常见的功能都没有免费软体了,语料库嘛... 恐怕要
靠自己了...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.242.29.182
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Linguistics/M.1482068696.A.021.html