作者CAFEMILK (☆)
看板Chinese
标题我国现代文学史料数位化典藏与服务
时间Fri Nov 15 20:14:04 2002
传统中国文学电子报第一三九期2002/11/15
主题:我国现代文学史料数位化典藏与服务
壹、前言
台湾地区现代文学发展历程坎坷,一般说来,打从日据时代开始,台湾新文学
已经开始萌芽,此一时期代表作家有赖和、吴浊流、蔡秋桐、王白渊、谢春木、杨
守愚、杨逵、杨华、杨云萍、吴新荣、王诗琅、郭水潭、杨炽昌、张文环、龙瑛宗
、巫永福、吕赫若、林芳年、锺理和、吴瀛涛、王昶雄等人,其作品无论是汉诗、
白话诗、民谣、散文、小说等,往往传达着浓厚的殖民文化,从宿命、乡愁、悲情
的乡土情感到抵抗、挑战等严肃主题,象徵着台湾人精神苦闷的年代。
台湾光复後,国民政府接收台湾,台湾人民正准备回归战後安定的日子,孰料
国语的强制推行及二二八事件的历史悲剧,使得台湾文学遭逢断层的不幸,例如吕
赫若、张文环、杨逵、王白渊等人,分别遭到程度不一的政治迫害,有些作家因此
封笔退隐,文学作品锐减〈注一〉。此後台湾地区文学发展主流以外省籍作家为主
,例如散文家琦君、王鼎钧、夏元瑜、林海音等,约至1970年代本省籍作家对国语
的文字处理较为成熟,逐渐进入所谓「乡土文学」时期,此一时期文学作家不分省
籍,偏好描述周遭的生活环境与景物,或为市井,或为乡村,或为社会,就地取材
,关怀各阶层生活百态。
到了1980年代以後,台湾本土文学再兴,新的台湾现实意识也开始萌芽,潜伏
的本土论者在有利的客观环境中,开始探出再出发的脚步。80年代,台湾社会的历
史主体意识普遍觉醒,台湾人又开始在台湾座标寻求台湾的出路,本土论因此受到
重视而得到普遍的认同。〈注二〉从上述台湾现代文学的发展历程,不难想像此一
时期之文学史料不容易徵集与典藏,一方面是殖民时代距今年代久远,资料典藏条
件较差,且出版品目录不完整,文学史料徵集实难齐全,另一方面由於政治主权转
换,有些文学家担心政治迫害,不轻易发表作品,因此有部分作品仅剩孤本手稿,
其保存条件与环境令人忧心,最後往往仅能从其遗稿中找到若干创作,而文学家家
属如果不知如何保存这些珍贵文学史料,最後恐也流落废纸厂或垃圾堆中,殊为可
惜,因此早期台湾现代文学史料之庋藏,除了倚重文学家家属外,图书馆及文学社
团的参与典藏,也是非常重要的一环。
由此可知早期台湾现代文学史料的徵集与典藏都不容易,更遑论其阅览服务,
因为读者不知道有那些史料可以参考,也不知道典藏於何处,常需耗费时间,奔波
於各大图书馆或文学相关资料室,因此政府刻正进行的「台湾地区地方文献典藏数
位化」计画是非常有意义的工作,如能尽早完成,对於各领域研究者,助益匪浅。
本文作者依其在文学史料领域多年来之实务工作,浅谈台湾地区文学史料数位
化经验,先从文学史料数位化之定义说起,再叙述文学史料之发展背景,进而简述
文学史料数位化之特徵及数位化典藏服务与数位化规划要点,最後再论及文学史料
数位化发展现况与未来趋势,尚祈各界不吝指正。
贰、文学史料数位化的定义
「文学」一词根据《正中形音义综合大辞典》一书所载:「近世所谓文学,有
广狭二义:广义泛指一切思想之表现,而以文字记述之者;狭义则专指偏重想像及
感情之艺术作品,如诗歌、小说、戏剧等属之,亦称纯文学。」
「史料」一词在前书中则定义如下:「研究或编纂历史的材料,有实务、纸面
、口传三种。」另在《中文大辞典》一书,则解释为「史材也,历史之参考资料也
」。
「数位化」一词在《英汉计算机百科辞典》一书之解释如下:「将物理变数的
类比量度转换为数字值,而以数位形式改变该量。简单的说,通信系统中的数位化
通常是指将语言或图形信号变为二进码。实际上任何形式的资料在计算机能接受它
们之前都要被数位化〈注三〉」 ;另在陈俞妏在其文章中将数位化一词解释为「
将文字或图像经由数位扫描器、数位照相机的转换,而成为电脑所能处理的数位数
据〈注四〉。」
综合上述定义,「文学史料数位化」应该可以解释为「泛指将一切文学活动的
纪录以电脑格式储存,包括文学创作、评论、人物传记、图片、手稿、声音、视讯
等各类型媒体予以数位化,然後可以再经由电脑介面将上述文件或资料以其原貌呈
现。」
参、文学史料数位化的历史背景
文学史料数位化的历史比起其他领域科学似乎稍微落後一些,这是可以轻易理
解的,因为资讯科技发展之初,原来是以军事用途为导向,後来才逐渐使用於科学
、商业与教育等领域,但这并不减损文学史料之重要性,在网际网路蓬勃发展10年
後的今日,学术界有一个共识,那就是”Contents”的充实才是全球各学科领域目
标一致的方向。「资料内容(Contents)」将是未来网路持续发展的主要条件,那些
内容贫瘠、资料不完整、不具权威性、专业性,或无特色的网站,将很难在下一个
世代存活於学术网站领域之中。
文学史料数位化的历史首推美国现代语文学会(Modern Language Association
,简称MLA)的摘要系统,这个已经有40年历史的资料库,收录1963起,有关文学、
语言及语言学、民俗学等学术领域之期刊、丛刊、专书、论文、会议论文集及书目
等,编制成索引摘要资料库(MLA International Bibliography),以供蒐寻相关资
料来源,是研究西方语言、文学不可或缺的重要参考工具,也是语言文学领域最权
威的资料库,唯至今尚未推出全文连结服务。
图一:美国现代语文学会(MLA)首页(
http://www.mla.org)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
「古腾堡计画」(Project Gutenberg)是美国伊利诺大学於1971年开始进行
,将属於公共版权的文学资料如「爱丽斯梦游仙境」、「莎士比亚全集」、「罗杰
辞典」等全文输入电脑,供网路上读者阅读。这是文学史料数位化的重要里程碑,
目前全球有好几个网站免费提供该计画建置的数位化书籍之下载服务。
图二:古腾堡计画首页(
http://promo.net/pg/)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
Contemporary Authors 是另一个着名的作家作品与人物评介工具书,也有超
过50年的编纂历史,是该领域重要之参考书。原本是以印刷式书本发行,目前是改
以光碟版发行,收录1960至1996年间约10万位当代作家资料,包括小说家、诗人、
剧作家、报界人士及非小说类文学作家。
DiscLit 系列光碟,则包括American Author、British Author、World
Author等文学系列丛书共约500册之全文资料,是研究美国文学、英国文学及世界
文学之入门参考书。
Essay and General Literature Index 收录美国、英国及加拿大地区所出版
发表的英文论文及文章,重点强调在人文及社会科学。所包括的主题有:经济、政
治、历史、戏剧、电影、文学作品的评论等。每年约收录 300 册书籍及 20 多种
年刊及期刊中的文章。
文学类资料在我国图书资讯界的数位化历史,似乎略占优势,以国家图书馆为
例,文学史料是馆内第一个数位化成功的领域,其原因有四:一则原先收录之资料
已具备数位化之基础,因为该馆曾於民国74年5月办过一次「当代文学史料展」;
二则它的学术领域范围较明确,资料蒐集时较易掌握;再则国家图书馆拟先小规模
试作数位化工程,以汲取、累积经验,再扩大范围至资料庞杂的期刊报纸、学位论
文、善本古籍等类别资料;最後,也是最重要之因素,则是该馆正好搭上「六年国
建」专案计画列车,获得行政院的专款经费补助,使得该计画得以顺利推展成功。
国家图书馆於民国83年顺利推出「当代文学史料影像全文系统」,确实具有先导性
及指标性之重大意义,该系统收录五十年来台湾地区当代文学作家约两千余位之基
本资料及其生平传记、手稿、照片、着作年表、作品目录、评论文献、翻译文献、
名句及历届文学奖得奖纪录,每年平均有20万人次上网使用该资料库,颇受文学界
人士喜好,是国内文学网站之重镇,对文学研究学者及热爱文学之民众,提供便利
之检索功〈注五〉。
图三:当代文学史料影像全文系统首页(
http://lit.ncl.edu.tw)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
中央研究院自1984年起开始建置「汉籍全文资料库」,至1998年止先後完成「
二十五史」、「十三经」、「诸子」、「古籍十八种」、「古籍三十四种」、「大
正新修大藏经」等文献之数位化工作,超过两千万字的台湾史料、一千万字的大正
藏以及其他典籍,合计字数一亿三千四百万字,并以每年至少一千万字的速率,持
续成长,是当今国内最具规模的中文古籍资料库〈注六〉。
元智大学的「网路展书读」是以古典文学多媒体服务为目标之网站,1993年起
即开始中国古籍数位化的研发工作,目前已完成中国古籍数位研究系统包含:《诗
经》、《全唐诗》、《宋诗》、《唐宋词》、《红楼梦》等,累计达一千五百万字
。已完成的网路教学系统包含:倚声填词格律自动检测索引教学系统、依韵入诗格
律自动检测索引教学系统、唐诗三百首、网路对联习作系统等。该网站在网际网路
崛起之初即推出,又能持续建置与推广,因此获得不少嘉评,并对往後文学网站制
作者具有催化作用〈注七〉。
「四库全书电子版」是两岸三地合作开发之电子资料库,收录文渊阁四库全书
共3480种典籍,36,000册图书,470万页影像,8亿汉字之中华文化巨着,四库全书
电子版以Unicode内码储存资料,并补充自建造字档,方便处理与显示中文罕用字
,而其全文检索功能更让研究人员津津乐道,除了可节省时间之外,更不会遗漏任
何一则相关讯息,也不必再像从前,往往为了某一句话或某一特定主题,翻遍了整
部四库全书,还不一定找得到资料。电子版四库全书之售价又比原书便宜,并可节
省图书馆书架空间,是学术图书馆数位化的重要资源。
「康熙字典」光碟是根据「同文书局」出版的石印版《康熙字典》为底本制作
而成,共收录47,035字,分为214个部首,内容极为丰富,但其编辑体例对於今日
之一般读者查询使用却显得有点不便,其电子版采用先进的电脑检索技术弥补此一
不足,提供单字、部首、笔画、笔顺、注音、拼音等多元化的检索栏位查询,让读
者能够轻松使用此一汉学研究中重要的工具书典籍,还可透过『浏览原书』的功能
,直接翻阅《康熙字典》的原文图像。
「故宫【寒泉】古典文献全文检索资料库」,由陈郁夫教授制作,将多年来自
行开发之古籍文献,免费提供学界使用,目前已完成十三经、先秦诸子、全唐诗、
宋元学案、明儒学案、朱子语类、资治通监、廿五史等古典文籍,刻正进行古今图
书集成数位化工程〈注八〉。
「传记文学」光碟收录该杂志第1期至第433期(1962.6-1998.6)间整本杂志全
文内容,共15,000篇文章,一亿余字数,录制於10张光碟资料中。内容包括自传、
评传、年谱、回忆录、名人日记、重要手蹟、珍贵史料、史事研究等传记文学与民
国史料,提供各篇文章的日期、期号、标题、副标题、作者、专栏、人物、机关团
体等项目的查询,使用者可透过全文检索软体,针对任一栏位、跨栏位或所有检索
项目,输入任意字词进行查找,即可查获相关书目资料并同时浏览内文影像。
「文讯杂志纪念光碟」收录该杂志第1期至200期(1983.07-2002.6)之间所有
杂志的全文内容,制作於DVD光碟片之中,共约三千万字,六千余幅图,提供杂志
篇目、专题、作者、被评论者、专栏、卷期的浏览与全文检索功能,预计於2002年
底发行。
图四:文讯杂志光碟版画面(图片由文讯杂志社提供)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
大陆地区由政府部门建置的现代文学网站尚未多见,但是民间网站却有不少全
文型文学网站,例如木子书屋(
http://library.muzi.com/)、天一书楼
(
http://www.cnool.net/tianyige/)、网络图书(
http://www.gotobook.net/)、
亦凡公益图书馆(
http://www.shuku.net/)等,都可在这些网站上轻易取得部分
文学作品的全文内容,唯这些网站是否已取得文字着作权上网之授权,似乎还有待
确认。例如有些网站将台湾地区作家之作品,如琼瑶的《庭院深深》、龙应台的《
野火集》、三毛的《撒哈拉的故事》、李敖的《北京法源寺》等作品,毫无保留的
公开於网路上,虽然方便网友与读者利用,但仍应尊重智慧财产权。这些网站大都
小规模经营,既无网站设立或服务宗旨,又无网站负责机构,且非正统资料库管理
架构,较难期望网站经营的长远性。唯有半官方「超星数字图书馆」(
http://www.ssreader.com)才是有计画有规模的经营各学科史料数位化工程,这
网站是由中国国家图书馆与北京世纪超星有限公司合办,目前已有近十余万册图书
上网,全部可以在线上浏览(需加入会员),号称是大陆地区目前最大的网上图书
馆。收录的学科领域涵盖哲学、宗教;法律、政治、军事、经济、教育、体育等社
会学科;数学、物理、化学、天文、生物等自然科学;建筑、资讯、电机等应用科
学;世界史地;文学艺术等。目前的服务方式是采会员制,会员需先购买一定金额
之「读书卡」,待阅读书刊时,系统会自动扣除储值点数,非会员只能预览数位化
书刊之部分影像资料,约10来页。
图五:超星数字图书馆首页(
http://www.ssreader.com)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
香港地区的文学资料库,则以香港中文大学之「香港文学资料库」为代表,该
资料库收录之资料以香港地区发表之现代文学创作或评论着述为主,资料收录时间
可追溯自1930年代,部分资料提供全文阅读服务,但仅限於校园内使用,是研究香
港文学作家的重要资源〈注九〉。
图六:香港文学资料库(
http://hklitpub.lib.cuhk.edu.hk)
〈请参考网址:
http://www.literature.idv.tw/news/n-139.htm〉
肆、文学史料数位化的特徵
当我们欲讨论文学史料数位化的特徵时,应先明了传统图书报刊之典藏与服务
困难:
一、分类编目耗费人力;
二、典藏空间需求量大;
三、资料不易长久保存;
四、老旧书刊阅览服务品质较差;
五、早期书的书刊目录索引比较不完整,资料查检不容易;
六、非书资料与特藏资料则更难服务读者。
接着我们再进一步分析文学史料数位化有哪些特徵?是否可以解决传统图书馆
的服务限制:
一、数位化典藏服务软硬体投资成本极高:毫无疑问的数位典藏投入之人力与经费
,是相当可观的。
二、数位化专业人力需求高:唯有专业人员的投入与规划,才能推出合格的数位典
藏产品。
三、数位化资料复制容易:数位化资料最大的特点就是复制容易,携带方便。
四、数位化资料查检容易:数位化典藏最终目的就是要提供迅速便捷的高品质读者
服务,因此资料检索的便利一定是重要特色之一。
五、数位化资料节省典藏空间:数位化资料可以节省图书馆的实体空间,这是大家
都肯定的一件事,尤其对於罕用之书刊,占用图书馆太多空间对图书馆的发展,并
不有利。
六、数位化资料不再局限平面出版品,视听资料亦可服务:除了图书期刊等印刷式
资料可以数位化之外,各类型多媒体资料也可以加以数位化後提供线上服务。
七、数位化资料典藏寿命较久远:资料数位化後,因资料复制容易而可再转制於新
的储存媒体上,因此数位资源的长久保存是没有问题的。
八、数位化资料可穿越空间障碍服务读者:此即远距图书服务之概念,透过网路可
以服务远端的读者,这是数位化後缩短服务距离的优点。
九、数位出版与网路行销成为新兴行业:数位化出版逐渐在网路新环境中形成,配
合电子商务技术的开发,网路购书行为或阅读行为已逐渐形成一股气候,它已改变
的传统的消费行为。
十、数位化服务实现资源分享的理念:如果没有着作权问题,数位服务早就实现资
源分享的境界。
十一、数位化服务衍生网路着作权课题:为了保护创作者的智慧财产权,必要的限
制似乎不可避免,因而网路着作权的议题,将会是网路世界中持续发烧的课题,如
何在推动资讯公开与保护着作权人的权益当中取得平衡,还需考验人类的智慧。
十二、数位化服务是未来的趋势:无论如何,网路的时代已经来临,数位服务是人
类未来的发展趋势,将来上图书馆、看电视、看电影、上班、开会等活动,都可以
在家中的电脑实现。
伍、文学史料数位化的规划
当吾人开发一套文学史料数位化系统前,必须先思考下列课题:
一、该文学史料有无数位化的必要?
二、该文学史料能否数位化?
三、该文学史料如何数位化?
四、该文学史料值得数位化?
五、文学史料数位化的目的?
六、文学史料数位化的好处?
七、有无文学史料编辑专业人员?
八、有无持续维护数位化系统之资讯能力?
九、建置经费问题是否容易解决?
十、数位化持续建置与服务之能力?
在评估以上课题後,如果答案是肯定的,则可再进一步规划下列需求:人力需
求、技术需求、资金需求。
一、在人力需求方面:数位化过程必定会增加人力成本,包括人员培训、系统观摩
、规格书制订、软硬体采购发包、书目资料建档、影像资料扫瞄、影音资料建置、
系统测试等。这是维持一个系统运作的必要人力需求,如果机构内尚无建置数位典
藏的经验,应尽早进行人才培训,才能应付系统建置所需之专业知识。尽量避免以
”急就章”或”捡现成品”方式规划人力,以免将来系统完成後,还需面对现实的
考验,万一人力资源无法掌控整个系统时,状况轻者,会造成系统停顿,严重者,
恐怕还需重新设计或调整作业,徒然浪费宝贵的时间与经费。文学史料数位化的人
力基本需求有三种,第一要有文学素养者,第二要有资讯素养者,第三要有行政能
力者,前两者负责规划文学专属系统,後者争取预算与行政作业,三者缺一不可,
相互支援与合作,才有可能在竞争的环境中顺利完成任务。
二、在技术需求方面:
甲.软硬体规划:在技术需求方面,首先需规划软硬体相关设备,在硬体方面,需
先计算文件数位化所需之储存空间及使用人次,才能规划主机等级及硬碟储存空间
大小,自大型主机到小型伺服器皆无不可,端看资料的重要性与使用率。系统软体
方面,如采用套装软体,价位较低,建置时程较短,唯系统功能一般仅能符合基本
需求;或考虑开发专属软体,费用通常较高,开发时程较长,但较能符合建置单位
之功能需求。另外还需依据作业平台,搭配资料库管理系统(Database
management system, DBMS),大型主机大都采用Oracle、Informix、Sybase等资
料库管理系统,小型主机可使用SQL或MYSQL等,前者价位较高,後者价位较低,有
些还是免费使用。
因此建置一个阳春型或小规模的系统,软硬体初期投资大约只要20万至30万之间,
全部开发时程只需三个月,就可以建构一个文学史料服务网站。而较具规模的系统
通常需估算一、两百万才能规划符合资讯安全与标准作业模组,包括采用双主机服
务,以防骇客入侵,将网页服务主机置於机构防火墙之外,提供一般读者连线使用
,而真正存放资料的主机置於机构防火墙之内,仅限机构内资讯人员及建档人员使
用,并以磁碟阵列规划储存之资料,以避免硬碟故障时,网页服务必须暂停,另需
规划每周或每日备份建档之资料,以防止主机故障时,可恢复先前备份之资料,而
全文资料、影像资料、影音资料则应至少复制两份以上於DVD或CD上,并保存於不
同的建筑物,即所谓之异地典藏,以防天灾发生时(如地震、火灾、窃盗),还有
可能将另一个备份保存下来。
乙.着录格式:关於文献资料着录格式,这几年在图书馆界数位化系统中,大都采
用诠释资料格式(Metadata),诠释资料是对文件或收藏品资料属性的一种描述,
目的在促进资料系统中对资料之检索、管理与分析。这是考量跨机构、跨主机间之
资料交换与整合,并考虑将来与国际接轨之需求,而采用符合国际标准之「都柏林
核心集(Dublin Core)」。这是一个简单有弹性,且非图书馆专业人员也可轻易
了解和使用的资料描述格式,它的着录项目有15项,大致能满足数位媒体资料编目
要件,这15项包括:(1)主题和关键词 (Subject)、(2) 题名(Title)、(3) 着者
(Creator)、(4) 简述 (Description)、(5) 出版者(Publisher)、(6) 其他参与者
(Contributors)、(7) 出版日期(Date)、(8) 资源类型(Type)、(9) 资料格式
(Format)、(10) 资源识别代号 (Identifier)、(11) 关连(Relation)、(12) 来源
(Source)、(13) 语言(Language)、(14) 涵盖时空(Coverage)、(15) 版权规范
(Rights)。
丙.数位化格式〈注十〉:
数位化典藏内容规格大致需考量下面四种资料格式 :
1.文字资料(Textual Materials)
文字资料数位化有两种方式,一种是以影像档格式储存(如TIF格式、JPG格式、
GIF格式),一种是以文字档格式储存(如TXT、WORD、PDF、HTML格式),前者制
作成本低,且较节省时间,无须对文字进行校对,适合处理大量文件,但无法对资
料内容进行全文检索;後者制作成本较高与耗费时间较多,但是对於文件内容可以
进行全文检索功能,同时也较节省资料储存空间。试分析比较此二者之差异:
项目 纯文字格式(txt) 影像格式(tif) 备注
档案大小 3~5KB 约100KB(300dpi) 以A4单页纯文字为例
建档时间 15分钟 1 分钟以内 约1500字
建档费用 较高 较低
全文检索 有 无
文字校对 要 无
文字排版 要 无
文字美编 可 无
造字问题 有 无
影像品管 无 要
资料内容 容易擅改 不易变更
其他限制 无法处理特殊符号或图像资料 档案较大不便做成电子书
经由上述之分析比较,可知资料内容如不涉及全文检索时,采影像扫瞄方式储存资
料较节省时间、人力与经费,例如国家图书馆之「当代文学史料影像全文系统」、
「中华民国期刊论文索引」及「传记文学」光碟资料库即采此一模式建档;而当文
件内容需要做提供检索之功能时,唯有采用纯文字格式建档方能解决,例如中央研
究院之「二十五史资料库」、香港迪志文化公司之「四库全书电子版」之文字建档
格式。
PDF(Portable Document Format)档案是近年来另一种热门储存文字格式,它保
有纯文字格式全文检索之优点,又有保护文件内容不被修改的功能,甚至有限制列
印及存档的功能,国家图书馆「全国博硕士论文系统」收录之论文电子档即采用
PDF格式制作。
2.图像资料(Pictorial Materials)
常见的相片、图片、手稿、画册、海报等资料数位化的主要格式,有下列几种,一
般都是采用扫瞄机来制作:
(1)TIFF:适用黑白、灰阶、全彩的文件资料,压缩效果佳,适合处理旧籍或档案
资料,并可储存为保存用图。
(2)GIF:适用於黑白、灰阶、256彩图,压缩效果亦佳,适合处理预览型图片。
(3)JPEG:适用於灰阶与全彩,压缩效果极佳,适合提供於网路上公众浏览。
(4)BMP:适用黑白、灰阶、全彩的文件资料,压缩效果普通,适合储存为保存用图。
(5)PDF:适用黑白、灰阶、全彩的文件资料,压缩效果佳,适合处理整份文件、整
本图书或期刊,并方便加入浮水印,防止资料被冒用或擅改,主要提供於网路上的
电子书。
目前在国内外,对於文件的保存方式,大都参酌美国国会图书馆的作法,将一份图
像同时储存成三种格式:
(1)预视图(Thumbnail image):以GIF格式储存,供网路上预览。
(2)检视图(Service image):以JPEG格式储存,供网路上浏览。
(3)保存用图(Archival image):以TIFF格式储存,作为永久保存用。
3.声音资料(Sound recordings)
声音资料采用WAVE格式、MP3格式、RA格式居大宗:
(1)WAVE:档案较大,一分钟的声音需占用10MB的空间,适合用来保存原音。
(2)MP3:最大优点是档案小,唯略有某种程度失真。
(3)RA:最大优点为线上播放,不用等到档案全部下载完毕,最大缺点是容易受到
网路品质好坏而影响收听品质。
4.视讯资料(Audio-Video Materials)
视讯资料的处理需要之特殊设备与专业人员,处理物件拍摄、影像编辑与剪接之能
力,目前主要的格式有:
(1)AVI:适合处理画质要求较低阶之产品。
(2)QUICK-TIME:适合处理画质要求较低阶之产品。
(3)MPEG:这是最普遍的视讯格式,目前我们最常使用之VCD片中的影音格式,就是
采用这种格式,它提供极高的压缩比例与较高的画质。
(4)Streaming Video:这是可透过网路上直播的一种格式,也是容易受到网路品质
好坏而影响收讯品质。
三、在资金需求方面:建置一套数位化系统,除了上述人力需求与技术需求外,经
费的来源也是非常重要的,这三者其实缺一不可。资金方面的取得,以政府单位为
例,大多经过需先提出计画书,再透过预算之编列、审查与核定後,才能正式执行
计画,这中间约需两年以上的作业程序,等到系统正式上线完成後,应该才是困难
的开始,这时候如何再去申请经费,维持系统正常运作,也是一门学问,或可考虑
再以相同名义申请第二期发展计画,但得看上级单位支不支持该项计画,否则就只
有想办法自筹经费,勉力维持系统运作。这也就是我们在网路上经常看到一些网站
,网页内容无法定期更新的主要原因。其他可以考虑的运作方式,譬如以产品发行
来自筹经费、寻找厂商合作建置、委托开发、寻求金主(基金会)、商品化行销等
方式皆可,端看其数位化产品有无市场经济价值,例如故宫博物院的文物复制品与
光碟产品,在市场上反应较热烈,就不难寻求合作开发的对象,而文学史料就没有
这麽乐观了,除了金庸的小说,或少数热门作品外,一般都很难有创收,笔者日前
在一家量贩店无意中发现整套文学电视剧「人间四月天」10卷录影带,只卖199元
(原价2990元),心中感触良多,文学工作者的酬劳,应该是不大稳定的。
陆、文学史料数位化的服务
文学史料数位化服务是未来全球资讯服务的一环,它可以结合电子商务,也可
以是图书馆馆内服务的延伸,也可能转型为个人化图书馆型态,也可能结合PDA或
手机业者的加值服务。
我们先从传统的图书馆服务说起,以前在图书馆尚未收藏数位化资料前,读者
必须先到图书馆,利用各种目录索引来寻找资料的出处,来後再到书架上找寻书刊
,然後才能将资料复印,以便研读。例如我们如果要找寻有关作家「林海音」的相
关报导与作品评论,在还书目索引还没有自动化之前,必须很辛苦的找寻各月份的
文学杂志与各报纸副刊及图书目录,才能寻获部分资料,不但没有效率,资料蒐集
也不完备。现在我们只要在电脑前面键入「林海音」三个字,就可以快速的寻获资
料,甚至可以马上阅读杂志或报纸上的内容,只要该份文件已数位化扫瞄或建档。
目前从事文学研究者在蒐集资料时,应该可参酌下列步骤取得目录或全文资料
:
一、文学图书:可使用「当代文学史料影像全文系统」、「国家图书馆馆藏目录系
统」、「全国图书目录系统」,大部分的国内文学图书,应该都会收录在这三个系
统内。
二、期刊文献:可先考虑使用「当代文学史料影像全文系统」、「中华民国期刊论
文索引」、「国家图书馆期刊目次系统」、「中国期刊网」,若还不满意,再检索
单一期刊资料库,如「文讯光碟」、「传记文学光碟」、「光华杂志光碟」等,大
部分的国内文学图书,应该都会收录在这三个系统内,且大部分都提供全文列印功
能。
三、报纸文献:可先使用「当代文学史料影像全文系统」、「报纸标题索引」查询
欲检索之人名或主题,查到後可如有影像,可立即列印出来,不用再调阅旧报纸或
报纸微卷资料。
四、学位论文:有关文学相关论文,使用「全国博硕士论文系统」,可免费取得近
几年来已授权学生之论文全文。早期的博士论文也已数位化,但仅限在国家图书馆
内使用。
五、研讨会论文集:有关文学研讨会的论文集较难掌握,如果主办单位没有将会议
论文赠送给图书馆,则读者就很难取得这份文件,只有参加会议人员,才有此份资
料。这类文件的检索方法请比照上述第一项「文学图书」即可。
六、网路资源:网路上的文学资源越来越丰富,除了在作家个人网站上,可以寻获
相关文学资料外,有些杂志社虽未制作光碟资料库对外发行,但也在自己的网站上
公开部分杂志内容,这时可利用网路搜寻引擎,检索到各类型文学资料,如「联合
文学」、「橄榄树文学月刊」、「天下杂志」等。网路上也可轻易的找到各种文学
创作与评论的文献,此即「网路文学」,这是近两三年来蓬勃发展的新品种文学,
让文学新人有许多的展示作品空间;有些网站为维持作品品质,投稿创作需经过审
核才可上网;有些作家一开始就不打算发行印刷式作品,直接将创作发表於网路上
,供网友免费阅读。网路文学在文坛发展史上,必然会记上一笔,虽然日後的发展
尚待观察,但这已经是时代的潮流,越来越多的文学创作,将会直接在网路上公开
,因为新人类使用电脑的行为,已经成为生活上的一部份,透过网路购物、上课、
上班、交友、看电影、听音乐已经是很普遍的行为了,虽然还有许多人不习惯或排
斥面对电脑阅读文学作品,但是时代的潮流已经将人类的生活e化了。
柒、文学史料数位化技术与服务的困难
文学史料数位化是一个颇具挑战性的工作,它将面临许多困难等待资讯技术去
克服,且数位化服务观念也是不断地改进,因而服务人员必须自我提昇,才能应付
资讯时代的潮流,底下分别简述数位化工作可能需要面临的困难:
一、作业平台:作业平台的选择是一项困难的决定,因为大多数的文史资料工作者
,并不清楚Unix、Linux、NT的优缺点,以及各家资料库管理系统的差异性,在选
择作业平台时容易受到软硬体厂商的左右,或者迁就预算多寡。基本上Unix与
Linux作业系统相似,Linux使用在中小型主机较多;NT作业系统操作介面与
Windows98较雷同,管理介面较亲切,操作上较熟悉,软体工程师比较容易寻获,
软体开发费用相对较低。在资料储存的安全上,Unix 、Linux及NT作业系统可以使
用磁碟阵列,保护资料的安全,当有一颗硬碟故障时,可以在不关机的状态下,更
换硬碟。在使用层面上,Unix及Linux的主机比较能容许较多瞬间上网人潮,NT作
业系统则对於使用人次有较多的限制。但无论如何,建议资料库主机置放於机构之
网路防火墙内,网页服务主机则置於防火墙之外,较能保护主机的安全。
二、字码问题:目前国内的网路使用者,其电脑大都使用BIG5码,只能处理13,461
个中文字,再加上预留的造字区,顶多只能增加到19782个中文字,因此肯定无法
满足文字工作者的用字需求,单就文学家的名字当中就有许多BIG码无法显示的字
,如 ?弦、?涵等,而文学史料经常需要处理日文或韩文的文献,这时候如果主机
内码是BIG5码者,就无法存入日韩文字,读者的电脑自然无法显示这些字码,字码
不足问题一直困扰图书资讯界,国内图书馆界自动化系统大都使用CCCII码为内码
,可以处理53,940个字,虽然大部分的中文字都可输入,并解决日韩文资料的建档
,但一般的使用者是以BIG5码电脑连结图书馆自动化系统,因此也无法显示画面上
的这些字。使用「国家中文标准交换码(CNS11642)」,可以处理48,027个汉字,虽
然已能处理大多数中文字,唯一遗憾的是一般读者使用的电脑,并无该内码,必须
自行政院主计处电子处理资料中心下载「CNS11643中文标准交换码全字库」,才能
使用或显示该字集,目前这个字集使用较多单位的是户政机关。近来资讯界比较推
荐使用Unicode当内码,它是一个国际标准码,可以容纳70,000字以上的汉字,并
且可以处理多国语文,且在国际上已经普遍使用,因此读者端的电脑只要使用
Windows 2000以上作业系统(部分Windows 98作业系统也可使用),其电脑就可以输
入并显示中文简繁体字与日韩文字,虽然有些读者的电脑不能键入BIG5码以外的字
,但是能接收主机端传来的Unicode字码,至少已能解决BIG5码无法显示中文字的
问题。国内主要的入口网站或新闻网站如「PC Home」或「东森新闻网」等,已采
用这种模式服务网友,只要在自己的电脑输入「游锡」两个字就可以找到行政院长
的资料,这时如果网页如能正确显示显示「游锡?」三个字者,大致上可以肯定该
服务主机是采用Unicode内码。
三、同义字:当我们在网路上查询资料时,如果系统主机没有建置同义字对照表时
,使用者将会有些资料无法查到,例如「台与台」、「丰与丰」、「庄与庄」等,
最常见的例子是当我们键入「台湾」一词查询时,有些系统查不到以「台湾」着录
的资料,因此如果系统能自动处理同义字,对於一般使用者将有其便利性。
四、参照词:参照词表是针对自己开发的资料库,建置一个可以相互指引的对照词
,例如将「爱滋病」、「爱死病」、「後天免疫不全症後群」、「AIDS」设定为参
照词时,则不论读者输入那一个词汇,系统都会去查询所有的相关词汇,这样才能
节省读者之时间,又不会遗漏资料,但是系统维护人员经常必须维护这个参照词库
,才能顺利达成服务读者的美意。
五、权威记录:权威记录档是通常是使用在图书馆的图书自动化系统,它可以针对
个人作者、团体作者、题名、标题等款目进行权威控制,举作家「小野」为例,所
有他发表的作品,不论是用笔名「天牛」、「汤新」或者本名「李远」等,都可以
透过权威记录的控制,将其所有的作品一次检索出来,虽然读者或许不知道「小野
」还有其他的笔名,但是系统可以透过权威记录档,提供较完整的检索服务,让读
者可以查获这位作家的全部作品。再举一个团体作者的例子,例如「行政院文化建
设委员会」「文化建设委员会」、「文建会」、甚至於将来如改制为「文化部」,
都是指同一个单位,如果资料在建置时已经将其权威记录关系着录,则日後查询资
料时不但可将这一单位不同时期的资料一起检索出来,而且日後果真升格为「文化
部」时,也不需要逐笔去修改原先已建档的资料。
六、着作权:数位文件着作权的问题,可能比其他资讯技术更难克服,尤其目前国
内并无文字仲介团体可以负责着作权授权与着作权费用分配事宜,因此大多数的数
位资料只能在图书馆内提供读者服务,无法公开於网路上,让所有的民众使用。这
一两年开始,出版社或杂志社才开始注意着作权的问题,有许多杂志在邀稿时就声
明,该文件投稿後的着作权属杂志社或出版社,或者要求作者同意让该文件公开网
站上,於是网路上的电子书及电子杂志如雨後春笋般的大量出现,至於较早期的出
版品,即便是原是发行单位,也无法任意将书刊内容公开於网路上,这些早期的书
刊,如果无法直接在网路取得,将使电子化服务的成效打折,因此盼望文字仲介团
体能早日成立,才能解决授权问题,而将数位化文献提供於网路上,当然届时将会
是有偿的资讯服务。
七、电子媒体保存:由於资讯技术发展速度超乎想像,资料设备与储存媒体都有一
定之寿命,举例来说早期的5又1/4软式磁碟片,现在几乎已经无法使用了,而当初
如果有重要的资料存放在磁片上,应该尽早复制於新的媒体,如CD-ROM或DVD上;
再者一般大型主机大概的寿命大概不会超过10年,个人电脑的寿命约5年,CD-ROM
光碟片得寿命大约只有10年,不管是主机的更换或是储存媒体的转载,都是非常耗
费人力的,尤其是主机的更换成本更高,如果主机的作业系统或中文内码必须更换
,更需耗费人力撰写程式进行资料的转出与转入。前面提到资料备份的异地典藏观
念,也是近年来资讯界较认真去执行的观念,以前各机构资讯单位通常将备份资料
存放於机房或资讯室,但这种作法不一定保险,万一遇上水灾、地震、火灾或其他
意外时,这些主要资料与备份资料统统毁於一旦时,试想不知该如何补救,如果这
些资料与民众的权益有关,该机构将不容易善了,且不知要虚耗多少人力、经费与
时间,才能将资料重建起来,因此各机构应该要有电子媒体长久典藏的正确观念。
以上仅列举一些数位化时可能遭遇的困难,供同道参考,唯资讯技术发展迅速
,说不定在未来三、五年内,这些障碍都已经排除,届时从事文学史料数位化者可
以更安心的使用数位化系统。
捌、文学史料数位化的现况与发展趋势
文学史料数位化在国内的发展,主要还是依赖政府的大力推动,例如国家图书
馆建置之「当代文学史料影像全文系统」,以及文建会积极推动的「全国文化资料
库」,这些计画都将会建置可观的数位典藏成果,前者以优势的图书、期刊、报纸
典藏品,将文学资料加以分析整理、扫瞄建档,对每一位作家皆用同样的尺度,竭
尽所能的蒐集资料,那怕是小众作家的相关资料,依然受到的公平待遇,是国内最
具有代表性的文学史料网站之一。目前国家图书馆正进行作家资料调查,希望作家
们协助该馆就已建档之资料,进行资料审查与增补工作,以强化该资料库的时效性
、正确性与完整性,让全民分享文学殿堂丰硕的果实。
後者正积极建置各类型地方文献数位化工程,并统筹为「全国文化资料库」建
置计画〈注十一〉 ,正式以国家级的数位典藏计画,保存地方文献与语文,各相
关机构对於地方文献蒐藏的资料类型,以照片最为普遍,其次分别为口述历史、文
物、方志、族谱、歌谣/谚语、私文书、报告书、诗文、公文书、碑碣、绘画、见
闻、海报传单、书简、戏剧、战记、竞选资料、日记、讣文、备忘录等。「全国文
化资料库」开始执行之後,除将继续民国88年的建置「地方文献数位化计画」的藏
品,并阔增其藏品内容,所包括的资料类型有:音乐资料、美术资料、戏剧资料、
舞蹈资料、传统艺术资料、文学资料、电影资料、建筑资料等八大类。其原始资料
的来源有两种:一为已经由中央与地方文化机关/单位收藏的公藏文化资料,二为
尚藏於民间的文化资料。待「全国文化资料库」逐年将各地方之文献与文物建置後
,文学工作者将有机会接近珍贵或未曾公开的文学史料。
至於「文建会」直属机构「国立台湾文学馆」,虽仍在筹备阶段(预计民国92
年中开馆),但也积极扮演文学史料数位化工程,如《台湾文学年表》、《台湾文
学作家作品集资料库(作家全集)》、《台湾文学辞典》之编纂计画,都在规划建置
当中,假以时日,必定有可观的成果。
作家本人或其家属在文学史料数位化领域的贡献,也是不容忽视的角色,作家
个人网站上可以提供不少文学相关资源,如向阳、张曼娟、金庸、吴淡如、彭怀真
、廖玉蕙、琦君等之网站,相信未来还有更多的作家投入个人网站的建置,让读者
有机会在网路上亲近作家。
民间文学杂志业者虽然在不景气的经济环境下,惨澹经营,但多少都有一份傻
劲与执着,只要稍有财源,会毫不犹豫的投入数位化工程,如文讯杂志、联合文学
、橄榄树文学月刊等杂志。
文学相关基金会与社团在文学史料数位化这个领域,也可以扮演重要的角色与
影响力,例如「国家文化艺术基金会」、「蒋经国文化基金会」、「赖和基金会」
等都长期支持文学相关活动,希望这些基金会能持续赞助文学相关活动。
文学图书业者:电子书的发展为杂志出版业带来一些生机,虽然国内网路行销
市场还有许多拓展空间,但总是一个契机,若非网路购物行为纠纷多,其实网路书
店的确实有发展的机会。
网路文学的品质虽然还需加强,却提供一个业余文学创作者发表作品的园地,
并开放网友讨论网站上的作品,这是传统文学出版品无法做到的,因此有人将这种
文学称为「网路新文体」,这是由於网路的特质而衍生的新文学品种,不管作者文
学素养深度或文笔洗链程度如何,它已经在网路上开创一片新天地,其中并不乏水
平以上的作品,这种依赖网路生态的文学活动,将有继续扩大的现象。
着作权是网路发展最大的障碍,也是文学传播媒介最大的致命伤,但着作权却
同时保障文学创作者的权益,它像是一把刀子的两刃,是一体的两面,当我们保护
着作权人的时候,同时也限制了知识的传播。我们一方面要鼓励文字工作者从事文
学创作,并保障其智慧财产权,以获取基本的酬劳,另一方面又为了要传播知识,
希望能将文学书刊,免费开放於网路上,供众阅览,这真是两难。将来或许可以采
行较折衷的方式,例如由文字仲介团体在网路上代为收取使用费,再将其收益分配
给作者或出版社,就能突破现有的限制,大大方方的在网路上,提供文学书刊的内
容。
文学网路未来的服务趋势应该是朝个人化、多元化、资源分享与付费制等方向
演进。个人化网页服务指的是个别化网页设计,这个理念是为了让每一位网路使用
者,进到该网站後,感受到个别性、独特性,网站设计者特别营造一个个人专属服
务之画面,每一个会员或使用者,可以依照自己的喜好,设定画面内容、偏好的主
题、或设定直接进入指定的网页,而系统主机也会主动与该使用者打招呼,例如多
久没有拜访本网站或主动发E-Mail提供该使用者偏好之讯息。在电子商务网站上的
个人化网页服务,更会纪录会员的消费偏好、消费能力等讯息,提供网站经营者宝
贵的网路行销的资讯,目前国内文学网站上尚未提供个人化服务,或许再过三、五
年,读者可以自行设定网站服务偏好,譬如有些读者只偏爱新诗,系统就可以设计
成每当该读者上网时,就将画面指定到新诗网页或某一位诗人的网页,享受到VIP
的服务。
网路服务多元化指的是大众网站与小众网站都有其生存的空间,各自建置文学
相关资源,各自服务不同类型之读者,使文学网站多采多姿,造福广大的网友。
资源分享是网路资源提供者最期盼的合作模式,只要大家都使用Metadata格式
建档,有朝一日,读者可以在甲网站可以检索到乙网站及丙网站的资源。
「知识是无价的」,未来的文学网路服务,可能有部分文学资源是需要付费的
,才能在网路上取得,为了让文字工作者获得基本酬劳,支付必要的着作权使用费
,是可以接受的。当然读者可以自行选择网路上其他无偿的资源或接受有偿的资源
。
玖、结语〈注十二〉
网路世界的最大特点就是”变”,每天都在改变,一切都在改变,谁也无法留
住它,掌握它,唯有亲近它、与它妥协或和平共存,才不会违背时代的潮流。
文学史料工作者通常对於资讯科技较为疏远,这多少会影响数位化的推动脚步
与发展成果,其实科技与人文是可以相处融洽的,虽然资讯科技可能带来社会的失
序、犯罪的温床、价值观的改变、伦理的丧失,但同时也带动终身学习、远距教学
、知识普及、资源共享的优点,这道理与「水火」是人类的生存的必要物质,却也
是最大的灾难来源相同,唯有善尽科技的优点,改善人类的生活品质,才是双赢之
道。
梁实秋先生曾说过:「文学发於心性、基於人性,亦止於人性。」 ,何怀硕
先生也说过:「我们在文学艺术中看到人生的处境、人生的命运--看到我们自己,
这就是共鸣。」 ,可知文学是生活中不可或缺的一部份,作为文学工作者当善尽
一己之力,致力於文学史料保存工作,才能让後代子孙了解先民的文化活动与心路
历程。目前在各界的努力下,国内文学史料的数位化工作,虽然有一些小小的成果
,但距离虚拟网路文学图书馆的境界,还有一些障碍要克服,且让政府与民间通力
合作,为国内文学活动注入新生命。
附注:
[1] 佩谦,<浅谈台湾新文学>,《传统中国文学电子报》,第十九期,民国88年9
月5日(
http://cyberfair.taiwanschoolnet.org/c00/21200085/w4.htm)
[2] 游胜冠,《台湾本土论的兴起与发展》,台北市,东吴大学中国文学研究所硕
士论文,民国80年,页1-6。
[3] 林在高,宋文强主编,《英汉计算机百科辞典》,台北市,中央图书,民国85
年,页457-458。
[4] 陈俞妏,<浅谈资料的数位转换>,《国立中央图书馆馆刊》,28卷2期,民国
84年12月,页3-12。
[5]当代文学史料影像全文系统网址:
http://lit.ncl.edu.tw
[6] 汉籍电子文献网址:
http://www.sinica.edu.tw/~tdbproj/handy1/
[7] 网路展书读网址:
http://cls.admin.yzu.edu.tw/
[8] 故宫【寒泉】古典文献全文检索资料库网址:
http://210.69.170.100/s25/index.htm
[9] 香港文学资料库网址:
http://hklitpub.lib.cuhk.edu.hk/
[10] <地方文献数位化之相关标准与作法>,《地方文献数位化模式及相关标准研
究报告》,南投市:台湾省文化处,民国88年。(
http://plisnetptl.edu.tw/plis88/research/dl/5.html)
[11] 「全国文化资料库」研究计画网址:
http://www.cca.gov.tw/news/2002/metadata.htm
[12] 由於本文撰稿时间仓促,且有些文学机构发展概况不易获得资讯,文中如有
不当之处,尚祈各界不吝指教。
[13] 见《中华日报》副刊,民国85年4月7日,第19版。
[14] 见《中华日报》副刊,民国88年6月20日,第16版。
【参考书目】
王梅玲,<数位馆藏管理与馆藏发展政策>,《中国图书馆学会馆藏发展理论与实务
专题研习班研习手册》,台北市:中国图书馆学会,民国91年,页17-55。
朱学恕,<台湾文学发展现况>,《大海洋诗杂志》,第57期,民国87年10月,页84-86。
余光中等,<台湾五十年来文学的发展>,《幼狮文艺》,第498期,民国84年6月,
页4-20。
须文蔚,<数位文学的前世今生>,《文讯月刊》,第183期,民国90年1月,页42-43。
陈昭珍,<电子资源的长久保存>,《佛教图书馆馆讯》,25/26期,民国90年6月,
页36-44。
陈雪华,<诠释资料在数位典藏的应用>,《中国图书馆学会数位化典藏与服务专题
研习班研习手册》,台北市:中国图书馆学会,民国91年,页119-167。
诸葛俊元,<略论网路文学创作之现况>,《国文天地》,第190期,民国90年3月,
页100-105。
台湾省文化处地方文献数位化模式及相关标准研究小组,《地方文献数位化模式及
相关标准研究报告》,南投市:台湾省文化处,民国88年。
撰文者:庄建国先生〈国家图书馆〉
版权所有,欲转载文章,请徵求电子报的同意!
--
※ 发信站: 批踢踢实业坊(ptt.csie.ntu.edu.tw)
◆ From: 210.85.10.154