集美校友总会

陈嘉庚研究数据库建设实践与思考

金健  赖辉荣

 

一、建立陈嘉庚研究数据库的意义

(一)有利于突出本馆优势,形成特色

专题数据库建设是数字环境下图书馆文献信息资源建设的一项重要内容,也是图书馆满足用户深层次需求的一项举措,更是图书馆提高其核心竞争力的手段之一。专题数据库建设在内容选择上通常要求应具有鲜明的特色,应能体现出馆藏特色或地方特色或专业学科特色或行业特色等等[1]。集美是陈嘉庚的故乡,集美大学是陈嘉庚创办的学校。作为一代伟人陈嘉庚的故乡和高校,有关陈嘉庚的研究由来已久,且持续日益高涨。陈嘉庚研究发展到今天,已经积累了许多丰富的文献资源。而集美大学图书馆多年来一直把陈嘉庚研究文献作为特色馆藏,并不断加大收集工作的力度,经过长期的努力,目前已经积累了相当丰富的陈嘉庚研究文献信息资源,不仅收藏了有关陈嘉庚研究的图书、期刊、图片以及视频等资料,而且因地理优势,收藏有其它一些珍贵的陈嘉庚文献内部交流资料等等。而且,借助集美陈嘉庚研究会设在本校的磁场效应优势,源源不断的有关陈嘉庚研究文献信息以各种形式提供给本校图书馆,这就为建立陈嘉庚研究数据库提供了稳定的数据源。可以说,陈嘉庚研究数据库的建成,将会更好地突出本馆优势,形成本馆特色。

(二)有利于陈嘉庚研究工作的深入开展

陈嘉庚是伟大的爱国主义者、教育家、华侨实业家,杰出的华侨领袖,毕生致力于兴办教育事业,赢得了世人的尊敬和爱戴。作为一代伟人,陈嘉庚的人格和风范一直是人们学习与研究的楷模。多年以来,人们对他的研究热情持续高涨。依托陈嘉庚故乡这一独特地理优势建立陈嘉庚研究数据库,可信度更高,说服力更强,可以很好地促进实体文物与数字资料的对接。特别是,伴随着本校陈嘉庚研究的基础日益深厚和研究氛围的日益浓厚,广大师生对学习、研究相关资料需求迅速上升,以此为基础构建陈嘉庚研究数据库,能给陈嘉庚研究工作者提供更充足、更全面的研究资料,有利于人们从不同的方向、不同的角度来开展陈嘉庚研究,使陈嘉庚研究工作迈向一个新的台阶。陈嘉庚研究数据库建成后,也能有效地解决陈嘉庚研究方面文献信息资源的分散和与用户需求之间的矛盾,而且,通过提供一站式的服务,使用户能十分方便地进行阅读、下载、打印,最大限度地满足他们对陈嘉庚研究领域内文献信息的需求。特别是鉴于研究陈嘉庚的专家、学者分布广泛(不仅在集美,在全国各地(包括港澳台地区),北美、新加坡等国都有),陈嘉庚研究数据库建成并与网络实现互连之后,用户对陈嘉庚研究文献的利用不再受到地域、时空的限制,这能够极大地扩大用户范围,提高文献利用率,真正为厦门地区、全国乃至全世界学习研究陈嘉庚先生和嘉庚精神的用户提供一个更为广阔的平台。

二、陈嘉庚研究数据库建设的具体实践

陈嘉庚研究数据库是以地方文献资源为基础,以全文数据为重点,整合了陈嘉庚及其研究的文本、多媒体以及网络资源,为研究、学习陈嘉庚和弘扬嘉庚精神提供一站式服务。其建库的思路主要围绕“数据收集→数据加工整理规范→数据发布”展开,具体来说:

(一)数据的收集

数据是数据库的核心,数据收集是数据库建设的基础。特色数据库的建设要求其数据收集要确保完整性和权威性。[2] 为此,在数据收集时需要确定合理的收集范围,包括时限范围、地域范围、文种范围等;需要确定数据源的类型,包括图书、期刊、论文集、网上信息等;需要确定收录数据的形式,包括文字、图片以及多媒体信息;需要确定数据收集的渠道;需要确定数据库的类型,包括书目型、题录型、文摘型、全文型等等。

在数据收集过程中,我们掌握了以下原则:在数据源类型上,追求一个“全”字。数据收集涵盖了陈嘉庚研究文献信息方面的图书、期刊、图片、视频等多种类型的文献。在收集的渠道上,拓展一个“广”字。为了获取足够的可用信息源,我们贯彻两条腿走路的方针,即在最大限度地挖掘馆藏文献资源(一方面将馆藏印刷型的陈嘉庚文献资源进行全面清理,并对其进行数字化加工;另一方面筛选本馆已购买的电子全文数据库,将其中与所建陈嘉庚研究数据库相关的内容进行下载并加工、重组,充实到自建数据库中,以达到有效地利用资源、节省费用的目的)的同时,进行必要的外部调查:一是按照建库结构与采集范围,抓好现期文献的采集工作,并适时制订文献补配计划,比如补充购买了《集美周刊》这一文献资源。二是通过馆际互借形式弥补本馆陈嘉庚文献信息资源的不足。比如,与相邻相关的地方文献收藏单位,如集美图书馆、厦门大学图书馆等取得联系,互为借用以弥补遗漏文献。三是通过与社会或个人建立联系,进行广泛征集,并将征集到的文献及时进行数字化处理。比如,与陈嘉庚纪念馆、《集美校友》杂志社编辑部以及有关专家等等联系,广泛、及时地获得一些珍贵的文献资源。此外,我们还努力挖掘网络资源,对与陈嘉庚相关的网络资源进行下载、分析和加工,并补充到自建库中,使网络中丰富的信息资源转化为图书馆资源的一部分,总之,我们做出最大努力确保文献信息资源的收全率。在数据标准上,突出一个“专”字,收录数据与数据库的专题定位一致,杜绝因追求数量造成冗余和繁杂信息。在数据时间上,遵循一个“宽”字,陈嘉庚研究时间比较悠久,其文献信息的收录范围越早越好,越全越好;而时效性又是衡量数据库水平的一个重要指标;为此,在建设过程中,我们采用先近后远的原则,一旦条件允许,尽可能对早期的文献进行回溯。

(二)数据加工整理规范

特色数据库建设,首先,需要对收集到的数据进行认真的审核筛选,去粗取精,去伪存真。其次,应注重对文献资源的深加工。不能停留在单纯地将一次文献数字化,而是要逐步深入地对数据进行组织、加工、整理、规范,可通过题名、作者、日期、关键词、文摘等对文献资源作深层次的揭示。在建库中我们通过扫描、录入、数码摄影、格式转换等各种技术手段和加工方式,对采集来的各种类型和格式的资源进行数据加工与转换。按照标准规范对数据进行元数据标引、描述、组织入库。为了确保建库工作有章可循。我们特别制定了诸如《陈嘉庚研究数据库》各子库元数据结构、《陈嘉庚研究数据库》元数据著录约定等自建元数据规范,要求建库过程严格遵循数据建设规范和标引细则,并尽可能在文献信息内容揭示方面做深、做细,从而确保数据加工的建设质量。比如,对图书的标引上,做好题名、作者、目录、出版社、出版地、书号、页码、价格、主题类号等相关信息的揭示,并对图书全文内容,包括封面、目录、前言、正文部分,以及封底等做完整的标签,便于读者更加清楚地判断和选择图书。又如,对《集美校友》和《陈嘉庚研究》期刊中的每一篇文章单独析出,并做好相应的题名、作者、出版年、卷、期、页码、主题类号、来源类号等相关信息的揭示,并对期刊元数据中出现两个作者或者多作者的情况,在著录时统一用半角的分号表示,以确保元数据取值、格式的规范。此外,在图片和视频加工方面,为方便用户使用,我们对于格式有所不同的数据进行了相应的处理:图片主要是扫描相关资料获得,将扫描得到的图片先用软件进行加工处理,得到数据库可用的图片后,再对图片进行标引,如图片的标题、来源(标题、作者、出版社、出版地、出版时间),最后进行来源类型和主题分类。又如所收集的视频文件有VCD、DVD和RM三种格式,而数据库要求的视频文件格式为.RM,因此我们用一些视频格式转换软件,把VCD和DVD两种格式的文件转换为RM格式的文件;对所下载的视频文件,同样格式很多,有AVI、MPG、MPEG、WMV 、WMA、WAV、ASF、VCD、SVCD、DVD、RM、RMVB、MOV、CSF、DAT、QT、VOB、TS、,VOB、MLV、MKV等格式,还有一些视频文件另带一个的字幕文件,这样的文件是不能在数据库中发布的,所以我们都把这些文件转换为数据库所要求的文件格式,即RM文件格式。经过对这些文献资源的深加工,使得各类数据格式基本符合建库的规范要求。

(三)数据发布

特色数据库的建设必须依赖一定的软件平台。对于每个图书馆来说选择一款好的建库软件是一件非常重要的工作。而目前用于建库的软件平台有多种多样,如北京拓尔思的TRS系统、清华同方的TPI系统、北大方正的Apabi3.5数字资源平台等等。一般来说,选择软件时必须考虑以下几点:第一是自己所建库的容量规模需要什么软件支持;第二是用户对所使用的软件的界面及检索方法的熟悉程度;第三是要与本单位建立交换关系和共享单位的软件保持一致,这样给数据交换下载和利用都会带来很多方便。图书馆可根据数据库的建设要求和性价比来选择合适的建库工具。我们建库小组经多方比较和充分论证后,结合我馆实际情况,最终确定采用通过CALIS认证的建库软件——快威DIPS2.0系统,作为陈嘉庚研究数据库的建库平台。该建库系统平台除了具备一般软件功能外,最大优点在于能实现全文检索。于是我们将原来基于Microsoft SQL Server 2000的元数据记录转成DIPS的入库文件,并提交发布。

三、陈嘉庚研究数据库的建设成效

陈嘉庚研究数据库的建设目标是通过整合陈嘉庚先生生平事迹、主要著述、研究论述、嘉庚文化等方面的文本、多媒体以及网络资源,形成元数据和对象数据,建设成为具有一定地方特色的地方重要历史人物的特色数据库系统,为海内外研究、学习陈嘉庚和弘扬嘉庚精神提供一站式服务。该数据库主要包括图书、期刊、视频、图片以及资源挖掘等资源类型,涵盖了陈嘉庚先生生平事迹、生前著述以及研究陈嘉庚的相关著述和因其精神而产生的相关文化资源。陈嘉庚研究数据库各子库名称和收录内容如表1所示:

 

表1: 陈嘉庚研究数据库各子库名称及其内容

图书

主要收录与陈嘉庚相关的图书,包括以期为著录单位的期刊;部分文本型图书

期刊

主要收录《陈嘉庚研究》、《集美校友》、《集美风》等期刊以及CNKI、维普等商业数据库上发表的与陈嘉庚相关的文章

视频

主要收录与陈嘉庚有关的音像资料

图片

主要收录与陈嘉庚及集美学校等有关的图片

资源挖掘

主要收录陈嘉庚相关重要文献,以知识单元为著录单位。全文本

该数据库具有鲜明的地方特色,以全文资源为主,内容丰富。既有陈嘉庚先生本人的所有著述,又有研究陈嘉庚先生及嘉庚文化的各种文献;既有书刊报纸等文本资源,又有多媒体和网络等各类资源,是一个集各种类型和载体的陈嘉庚及其研究于一体的数字资源库,库中系统化、专题化和针对性的特色资源满足了特定用户的特定需求。可以说,迄今为止,具有多子库的建设结构和多库之间能合库检索的人物数据库在国内外为数不多,因此,本数据库具有一定的先进性,它的建成可以为海内外用户研究、学习陈嘉庚,以及弘扬嘉庚精神发挥积极的作用。综观该库,其主要特色如下:

(1)内容全面,结构丰富。该数据库按主题从“生平与著述”、“嘉庚精神研究”、“嘉庚学校”、“嘉庚文化”、“嘉庚人物与校友”等不同方面对陈嘉庚研究文献信息资源进行资源揭示与整合,可以说,内容全面是比较全面的。此外,该数据库结构也很丰富,包括了图书、期刊、视频、图片、资源挖掘等资源类型。

(2)检索功能强大。该数据库除按资源类型检索外,还可按主题进行分类检索。该库设置了丰富多样的检索途径,既能提供包括题名或标题、书名、刊名、作者或责任者、作者单位、分类号、关键词、主题词、出版机构、出版年代、CN刊号、ISBN号、摘要、全文、参考文献等一般性和通用性的检索途径,也能根据各子库中各类特色资源的内部和外部特征,提供其所特有的实用而有针对性的检索点,如地名、人名、年代、日期、文献来源、标准号、语种等多种方式的检索途径,如原件年代、图片来源、图片作者等等。该库还提供了多层次的检索方式,可以实现普通检索、高级检索、二次检索、扩检、缩检、历史检索等等。用户可以通过多种方式、多条途径、多个角度进行全方位的检索,全面、高效、快捷地检索到自己所需要的资料,满足全文检索中查全和查准的要求。

(3)相对开放的服务方式。该数据库每天24小时全天候开放服务。主要服务方式包括:数据浏览、信息检索、原文获取、文献传递、网上咨询帮助等。该数据库具有独立的服务器,提供WEB形式的开放式检索。在校园网内无需注册、无用户限制;对校园网外用户采用用户名加密码登录访问。

(4)相对完善的统计功能。该数据库页面上,提供有数据库总访问次数和各子库访问次数、当前在线人数的在线统计。

四、 特色数据库建设的几点体会及思考

(一)选题上应突出“特色”

特色数据库建设,其主要目的是为了资源共享,因此,特色数据库的建设重心应放在“人无我有,人有我优,人有我精”上。[3] 这就要求在数据库内容选择上应具有鲜明的特色,能体现出馆藏特色或地方特色或专业学科特色或行业特色等,不能与现有的数据库重复,各馆之间也要互通有无,避免重复。在现实中,一些图书馆为了应付诸如图书馆评估、数字化建设水平评估等检查,随意选择一个课题就开始建设特色数据库,其结果是特色数据库无特色,成为一个大杂烩,失去了其应有的价值。因此,特色数据库的建设必须本着从本单位实际出发,建设具有鲜明特色的、能够取得显著使用效益的数据库。一般而言,图书馆经过长时间文献积累后,会在某一方面、某一学科或某一研究领域会形成具有一定规模、结构完整、内容丰富的文献资源优势,对它们进行全面、系统、有组织的开发、整理和加工,从而形成馆内文献资源特色。如我馆的陈嘉庚研究文献经过长期的建设,已显示出独特的优势,因此,建设陈嘉庚研究数据库的时机已经成熟。

(二)数据加工应做到标准化和规范化

文献标准化是文献资源共享的前提和基础。没有标准化和规范化,就不会有文献数据库的协作建设和资源共享。为此,我们必须重视专题特色数据库建设的标准化和规范化问题,在执行标准化和规范化的过程中,特别是在描述语言和标引语言方面,必须尽可能采用国际、国内通用的数据著录标准、数据格式标准、数据标引标准、规范控制标准及协议进行标准化、逻辑化组织。我们在建设和发布中,采用福建省CALIS中心推荐建库标准DIPS系统作为资源建设和发布的平台,使本数据库成为福建省文献保障系统的子库之一,符合其检索、共享、管理、分析等方面的要求,从而实现福建省高校特色数据库资源和服务的共享,同时又为用户节约检索时间和降低费用,提高检索效率。

(三)应加强数据库的宣传和推广应用

特色数据库建设的最终目的在于数据库的利用,而知晓是使用的前提。因此,数据库发布后必须开展宣传和推广工作,使更多的人认识和了解该数据库。由于该数据库的建库时间较短,广大师生读者对数据库的知晓程度仍然不太高,针对这一情况,我们通过多种渠道和方式进行宣传和推广,包括:利用学校和图书馆的主页进行宣传报道;在集美陈嘉庚研究会年会上做专题宣传;在开展图书馆电子资源宣传培训周期间,开设特色库使用培训讲座;通过E-Mail、电话等形式将数据库的内容、特点以及更新信息主动推送给相关的用户群等,从而提高特色数据库的知名度及使用率,并有效利用特色数据库开展专题服务。此外,数据库的利用率如何,用户对数据库建设和使用有什么意见和建议,也是我们追求特色数据库效益最大化的关注点。因此,在特色数据库建设中及时收集用户使用的反馈信息,不可忽视。在数据库建设和使用过程中,我们根据用户的需求、意见和建议不断改进工作,对发现的问题在第一时间加以解决,努力使特色数据库建设更加专业和实用。

(四)应高度重视数据库的知识产权问题

高校图书馆如何在适应知识产权国际秩序的基础上, 通过合理适度的法规,调整、解决好特色数据库建设与知识产权保护的关系是特色库建设中应注意的问题。特色数据库建设,其数据的来源一般有三方面:一是网络资源;二是利用已有的数据库获得资源;三是自己所独有的资源。[4] 这几种数据来源,在加工整理时大部分涉及到知识产权问题。因此,必须对作者的知识产权特别加以保护。虽然版权法赋予了图书馆对受知识产权保护的信息资源合理使用的权利,但必须遵守版权法所限定的范围。我馆“陈嘉庚研究数据库”建设的主要目的就是弘扬嘉庚精神,推动陈嘉庚研究,并为此提供翔实的研究资料。不具有任何商业目的,遵循“合理使用”的原则。该数据库被严格限定在校内使用,反对商业性操作,校园网外用户要求其鉴定合作协议,从而较为妥善地解决了知识产权问题。值得一提的是,我们对转载部分文献载体或有关网站上的文字、图片资料,我们都会注明出处,以示资料来源的客观性和对原创者的尊重。

(五)应建立合理的建库队伍和运行机制

组建一支结构合理、素质优化、业务精湛、富有战斗力和具有团结协作精神和敬业精神的建库队伍,是建设高质量特色数据库的重要保证。陈嘉庚研究数据库的建设作为我馆数字图书馆建设的一项重要内容,馆领导高度重视建库工作,配备了固定和兼职的建库人员。其中包括有图书情报专业的人员、具有水产专业背景的人员、计算机网络技术人员等。在建库中各司其职,团结协作,完成各自的工作任务。在建库过程中,馆领导多次召集建库小组成员,对数据库建设实施计划和进度、特色库内容架构、资源收集、技术方案、建库标准与规范、难点问题等问题进行讨论和研究,达成了共识,确保了数据库建设的顺利实施。针对“陈嘉庚研究数据库”建设过程中存在的许多不足,我们认为只有在专家的不断指导下,才能提高数据库的建设质量,以达到更有效地为广大用户服务之目的。可喜的是,我校拥有一批高素质的热衷于陈嘉庚研究的专业教师队伍,因此,在建库过程中,我们经常请教我校长期从事陈嘉庚精神教学和研究的专家学者,借助他们丰富的知识可解决在陈嘉庚研究文献资源采集、筛选、分类体系的设置等方面存在的一些难题,在专家的指导下力求保证数据的权威性和可靠性、体系结构设置的合理性等等。

(六)及时做好数据的修正、更新和维护工作

特色数据库除了权威性、特色性、实用性、科学性、共享性等作为其评估指标外,“可持续性”也应作为一项重要的评估指标。[5] 而做好数据的修正、更新和维护工作,是数据库保持其生命力,促进其可持续发展的关键所在。通过修正数据错误,可确保数据的准确性;因此,要注意及时对有问题的数据进行替换、删除和修改;通过数据的更新,可保持所含信息的新颖性和有效性;因此,要确定合理的更新周期,保持数据的新颖性,使用户尽早获取最新信息;通过数据的维护,可保证和提高系统运行的安全性、协调性和运行效率;因此,为了保证数据的安全,图书馆应派专业技术人员对服务器进行维护,并建立严格的操作规程和详细的备份制度,定期对系统和数据进行硬盘、光盘和磁带等多介质的备份。经常进行病毒查杀、系统优化等维护工作。如我馆由专人负责数据库的更新,基本做到数据更新经常化,并做好数据的保存与备份以及安全管理工作,从而确保数据库的可持续发展。

特色数据库建设是一项长期的工程,需花费不少人力、财力和物力,单靠一馆之力往往难以完成。它不仅需要得到了上级有关部门的大力支持,更需要跨部门的广泛协作。因此,我们认为,通过建立科学有效的合作机制,实行联合建库是下一步陈嘉庚研究数据库建设应走的途径,通过联合本区域相关单位共同建库可发挥各种优势,避免资源重复建设。

 

参考文献:

[1] 刘葵波、郑振容、金健,等. 高校图书馆特色数据库建设实践与思考——以“水产科技数据库建设”为例[J] . 情报杂志,2008(2):159—161.

[2] 李 珍、周厚玲. 中国古典戏曲小说文献专题多媒体WEB数据库建设[J] .  四川图书馆学报,2006(1):56—58.

[3] 黄 燕. 图书馆特色数据库建设探析[J] .   河北科技图苑,2006(6):66—68.

[4] 赖辉荣. 图书馆特色数据库建设中的版权困境及其出路[J]河南图书馆学刊,2004(2):53—56.

[5] 游春山. “特色数据库”建设存在的误区及反思[J]图书馆建设,2005(2):37—38.