故宫文物底帐信息数据采集方法

2016-08-04

      实现文物管理现代化、科学化是博物馆事业发展的必然趋势,也是信息社会发展的需要。文物是博物馆一切工作的基础,使用计算机对文物藏品进行科学管理,将大大提高工作效率,也有利于文物的保护与利用。为此,故宫博物院和中科院软件所联合开发了“故宫博物院文物管理信息系统”。数据库的完备是系统建成的标志,也是系统运行的必备条件,如何采集文物信息数据、如何将大量传统管理的文物底帐数据数字化,是一个值得探讨的问题。

  文物是博物馆一切工作的基础,也是博物馆存在的基础。故宫博物院拥有100多万件文物,长期以来都是使用传统的手工管理方式,文物清点、账物核对、文物使用动态、统计报表等工作开展起来困难重重,文物观摩、鉴定、重复提取照相以及为陈列展览进库挑选文物等都很容易使文物受损。要改变这种传统手工管理方式,必须应用计算机技术,实现文物管理现代化。为此故宫博物院建设了自己的文物管理信息系统。

  一套系统的好坏、可行与否,必须用数据来进行检验。文物信息数据库的完备是系统建成的标志,也是系统运行的必备条件。目前许多博物馆都建立了自己的文物管理信息系统,但如何采集文物信息数据、如何将大量传统管理的文物信息数据数字化,这是大多数博物馆都面临的具体问题。有的博物馆文物管理信息系统建成后,由于没有数据,系统不能运行而形同虚设;有的博物馆采取边整理边录入的方式采集文物信息数据,结果是数据采集速度很慢,花很多钱建成的文物管理信息系统成了简单的文物数据录入系统,等若干年后数据全部进入时,系统已完全落后了。对于数据采集这个问题,故宫博物院采取的是批量录入文物总账信息数据的方式。现将其采集方法介绍于后,希望能给大家提供参考和借鉴的价值。

  双机录入、单机校对需求的提出

  一、充分了解基础数据的情况

  我们翻阅了大量的《故宫博物院藏品总登记账》,了解帐目结构、文物信息数据项以及数据量等情况。《故宫博物院藏品总登记账》有三个特点,其一:数据项简单,且重复数据多。主要数据项为入藏时间、收入凭证号、来源、总登记号、参考号、类别、时代、品名、单位、数量、现状、附件、备注13项,其中来源、类别、时代、单位、数量、文物名称等内容大量重复;其二:故宫文物总账条目数多达百万以上,数量庞大;其三:几十年来,帐目由不同管理人员手工抄录,字体有繁有简。帐目中还存在很多为了减轻抄帐工作而将多件数据项相同的文物记录在同一行的情况。根据这些特点,我们要求开发的录入软件要按照文物总登记账的形式,录入界面设计为表格样式,每行录入一条文物信息。还应具备多行剪切、复制、粘贴功能,并能在录入下一条数据时继承上一条数据的部分指定信息。用文物号的唯一性来检查录入重复的数据。既方便快速录入,又保证数据不重复。对于一行多件文物的情况,仍按总账原样录入,在数据采集工作完成后,由转库程序将该数据按文物号格式、文物数量进行判断后,自动拆分为单条数据存入数据库内。该软件还要具有帐页及账册封面打印功能。

  二、确定双机录入、单机校对数据采集方式

  对于基础数据的批量采集,一般采取单人录入、多人校对的方式。这种方式使工作量主要集中在对数据的校对上,在数据量庞大的情况下,人工校对容易产生疲劳感,差错也就易于发生,因而无法保证所采集数据的准确性。《故宫博物院藏品总登记帐》数据项简单、数据量大、又要在尽可能短的时间内完成基础数据的采集,因此我们决定聘请专业录入队伍承担《故宫博物院藏品总登记帐》基础数据的录入工作。而校对工作对校对人员的文物专业知识要求较高,不可能随便请人校对,故宫也抽不出更多的专业人员来从事基础数据的校对工作。因此单人录入、多人校对方式虽然在工作流程上易于控制,但不需要太多专业知识的简单录入与必需专业知识的校对工作,从工作效率和人员成本消耗的角度来说,多人校对显然是效率低的、不经济的,对故宫来说也是不适用的。根据故宫的具体情况,我们决定采用双机录入、单机校对方式进行基础数据的采集。双机录入、单机校对即由两个录入员双机录入相同的文物底帐数据,由计算机系统对数据进行字段级的核对,系统自动标志出不完全一致的信息,提示校对员对其进行纠错。由于采用计算机自动校对的方式,大部分的校对工作由计算机自动完成,校对人员只需判断录入不完全一致的字段级内容,这样既减少了出错的概率,又使人员成本相对较高的校对人员的数量大幅度减少,工作效率也得到极大地提高。

  为了便于管理,我们还要求开发的双机录入软件具有录入员工作量、差错率、校对员工作量统计、任务分配、权限设置等功能。根据我们提出的需求,中科软件所开发了一个集录入、校对、纠错、统计、管理于一身“故宫文物底帐信息数据录入软件”。


      《故宫博物院藏品总登记帐》基础数据采集工作的实施

  一、数据采集前的准备工作

  软件开发完成后,我们将两台改造并升级完成的服务器和两台微机通过HUB连接,搭成实验环境,模拟数据采集录入工作整个流程,检验多种技术的使用情况。设计能保证系统正常运行的最小资源权限以及必要的安全备份,并人为地造成一定的软、硬件故障,再将其恢复,积累排除各种故障的经验和方法。与此同时,我们还将100多本《故宫博物院藏品总登记帐》各复印了三份,供录入员与校对员工作使用。

  测试完成后,我们搭建了由2台服务器、18台录入机、4台校对机组成的录入平台。该录入平台采用客户机/服务器(Client / Server)模式,TCP/IP作为传输协议。服务器、客户机及外部设备通过交换机形成星型网络连接。平台中的2台服务器分别为主域服务器及备份域服务器,安装中文Windows NT Server 4.0操作系统,负责域用户帐号及密码的创建、维护,以及对用户资源访问权限的分配。18台录入机及4台校对机安装中文Windows 98操作系统,运行故宫博物院文物底帐信息数据录入软件。该软件平台具有权限管理功能,用于登录用户的创建以及权限的分配。录入员、校对员、系统管理员的操作权限就是通过系统的身份认证进行严格控制的。

  二、数据采集工作

  1999年5月,我们聘请了“书同文”公司的18名专业录入人员,并将其分为9个录入组,由故宫资料信息中心的4名资料员担任校对员,开始了《故宫博物院藏品总登记账》基础数据的采集工作。每组录入人员录入相同的文物底账数据,按页提交,系统自动对录入组提交的数据逐条进行比对,并将比对不一致的地方用红色显示出来,由校对员根据《故宫博物院藏品总登记账》进行校对修改。在校对中如发现总帐抄录错误或不能解决的问题时,由文物总账管理员会同专业人员一起解决,保证录入数据准确无误。这样,我们只用了四个月的时间,录入文物基础信息数据100多万条,将100多册《故宫博物院藏品总登记帐》的文物基本信息数据全部数字化。

  《故宫博物院藏品总登记帐》基础数据全部数字化后,我们运用简繁体转换程序将其转换为简体和繁体两个版本。又通过中科软件所提供的文物数据导入系统,将全部数字化底帐数据按相应的字段导入故宫文物管理信息系统数据库,并以此作为文物管理信息系统运行的基本数据。

  批量采集底帐信息数据的作用

  一、对文物管理信息系统的功能进行检验

  故宫文物管理信息系统对于一件文物所建立的基础数据项包括文物基础信息、文物描述信息、文物收藏信息、文物资产信息、文物研究信息等四十余项,批量采集的文物底帐信息数据只是其中最基础的一部分,批量采集的文物底帐数据转入文物管理信息系统数据库内以后,我们开始了文物管理信息系统的试运行,并用百万条的大数据量对文物管理系统对系统检索速度、检索结果、各类统计数据、统计速度等进行了检测,并根据检测结果,提出系统优化需求,使文物管理信息系统更加高效、合理、易用。目前系统已正常运行两年,暂未出现数据丢失情况。

  二、帮助一线业务人员进行文物帐目核对

  故宫文物管理信息系统开通运行后,结合文物搬库、清理、编目等工作,我们又以《销号账》、《重复品账》、《档案清册》、《一级品文物编目卡》以及各专业组提供的文物庋藏卡、编目卡等为数据源,补充采集基础信息数据以外的文物描述信息数据。在采集过程中,利用文物号数据的唯一性,将文物卡片、分类帐与总账进行逐一核对,给文物管理工作提供了帮助。现在数据采集工作已经得到了越来越多专业人员的支持。

  通过故宫文物信息管理系统两年来的稳定运行以及数字化的文物底帐基础数据在我院文物核对工作中的作用,我们认为,批量采集文物底帐基础数据是一条行之有效的方法。但对于我院整个数据采集工作来说,底帐基础数据采集工作的完成还仅仅是一个开始。文物描述信息数据、文物编目数据、文物影像数据的采集,将是一项长期而任重道远的工作。

(作者单位:故宫博物院资料信息中心)




图书馆

图书馆

视听馆

视听馆

故宫旗舰店

故宫旗舰店

全景故宫

全景故宫

v故宫

v故宫