美章网 资料文库 数字档案数据管理思考范文

数字档案数据管理思考范文

本站小编为你精心准备了数字档案数据管理思考参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

数字档案数据管理思考

《云南档案杂志》2015年第四期

一、业务流程及系统架构

(一)档案信息系统的架构在数字档案馆建设的过程中,纸质档案要经过整理、加工、著录、挂接等操作形成数字档案数据,这个过程伴随着相关信息将被加入到系统数据库,且挂接的数字档案原文信息将存储到指定的位置。数据库中的信息和挂接的数字档案原文信息都属于在线数据。只有了解了系统的架构,在开展在线数据管理工作时,才能做到有的放矢。云南省档案局的档案信息系统为CS+BS模式,系统管理在CS端进行,而数据查阅利用在BS端进行。后台数据库、系统的BS端、数字档案原文分别安装、部署、存储在到不同的服务器及存储阵列中,这样可以提高系统的性能及安全。

(二)数字档案数据分类根据云南省档案馆制定的数据管理办法规定,在线数据和离线数据要同时移交。为了便于解释和管理,将数字档案数据分为在线数据和离线数据。在线数据不是指连接到互联网中的数据,针对档案系统的特殊性,是指在系统正常的情况下,拥有权限的用户可以通过内部局域网对数据进行访问和操作的数据。离线数据是指将数据存储到某种介质中后,脱离计算机或带电环境保管的数据。以云南省档案馆为例,在线数据包括系统数据库中的数据、挂接后保存在存储阵列中的pdf格式原文数据和在线备份的数据;而离线数据指在数字档案馆建设过程中,由数据形成部门移交的数据,从表1可以看出,主要包括扫描文件、数码照片、视频文件、音频文件和其他类型文件。

二、做好数字档案数据管理工作的措施

(一)数据备份数据备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他的存储介质的过程。传统的数据备份主要是采用内置或外置的磁带机进行冷备份。但这种方式只能防止操作失误等人为故障,而且恢复时间也很长。随着技术的不断发展,数量的海量增加,不少企业开始采用网络备份。网络备份一般通过专业的数据存储管理软件结合相应的硬件存储设备来实现。做好数据备份工作是保障数据安全的有力保障。当发生操作失误、系统故障等事件导致数据丢失时,如果没有对数据做备份,那么数字档案馆建设的部分成果甚至全部成果将不复存在。因此,要做好数字档案数据管理工作,备份工作是必不可少的。

(二)在线数据管理1.数据库备份对数据库采用了两种方式进行备份:一是通过ORACLE数据库的导出功能将数据库备份到服务器硬盘上,并定期将备份的数据拷贝到移动硬盘上;二是通过赛门铁克软件将数据库分别备份到磁带和硬盘上。也就是说,数据库中的数据共备份了四套。目前,数据库中的数据量达到8GB,为了数据备份的过程不影响系统访问的速度,以上1.2.4这三种备份策略将在晚上自动运行。以上四套数据库备份的保留期限均为2个月,以保证今后的持续备份有足够的存储空间。2.数字档案原文备份除了保障数据库的安全外,系统中挂接的数字档案原文的安全也是至关重要的。因此,应采取合理的方式对挂接到系统中的原文进行备份。由于挂接原文存储采用的是FTP的方式,每一个存储原文的FTP的存储空间不一致,受存储空间的限制,原文的备份就不能简单的采用盘对盘的拷贝,鉴于此,对于挂接到系统中的数字档案原文采用赛门铁克NBU软件将其备份到磁带上。由于挂接到系统中的数字档案原文的安全可用是系统正常使用及提供利用的关键,因此,在对原文进行备份后,还应定期对备份的原文数据做还原测试,以保证在误操作或系统故障时能够迅速的找回数据。3.操作系统及应用备份对数据库的备份和挂接的数字档案原文的备份在备份正常,还原测试正常的情况下,可以保证业务系统在出现问题的时候尽快对软件及系统恢复。软件的运行的基本要求是部署系统的服务器是正常的,为了避免服务器出现故障时,重新安装操作系统及相关软件可能出现的问题,有必要对服务器操作系统及其主要应用进行备份。采用赛门铁克SSR软件对数据库软件安装服务器、系统BS端部署服务器、赛门铁克专用服务器、域服务器的操作系统及主要应用进行了备份。每一个月或者服务器安装新软件时对操作系统和指定的应用软件进行备份,并且将备份保留两个月。这样,当服务器发生故障时,只需要使用赛门铁克的引导盘及对应的操作系统和应用软件备份,就可以在较短的时间内恢复系统,节省了重新安装操作系统、应用软件及相应配置的所需的大量时间,简化了操作,提高了效率。通过对用户权限和数据使用权限的管理以及对数据库、原文、操作系统和应用的备份,可以很好的对在线数据进行管理,以保障数据安全。

(三)离线数据管理根据云南省档案馆制定的数据管理办法规定,在线数据和离线数据要同时移交。在上文中对数据的分类以及离线数据的类型进行了说明,主要包括扫描文件、数码照片、视频文件、音频文件和其他类型文件。这些离线数据主要由硬盘、光盘等存储。而这些离线数据是由数据形成部门移交的。为了确保移交的离线数据的质量,应对移交的存储离线数据的脱机介质的外观、介质可读性、型号、品牌、内容等进行检查,并填写《数据移交表》。1.移交数据质量检测脱机介质的外观、介质可读性、型号、品牌比较容易检查,但由于文件数据较多,故其中存储的数据是否存在文件格式、分辨率、是否损坏、完整性、与目录对应关系等问题无法轻易找出,对于以后的保管及提供利用有害无益。为了更好的解决这些问题,云南省档案局请专业公司定制开发了档案目录数据及数字化扫描图像质量检测软件,该软件可以很好的解决这些问题。从检测报告中可以很好的发现移交的脱机介质是否存在文件质量问题。若确实存在问题,可以返还数据形成部门根据报告有针对性的进行修改,若没有发现问题,达到规定的移交条件,即可接收并保管。特别需要说明的是,在线数据的备份如果脱离计算机或带电环境,也会成为离线数据。这些数据基本上存储在硬盘或磁带中。为了便于对存储离线数据的脱机介质进行管理、查阅、利用,可以建立一套编码规则,对这种类型的脱机介质进行编号,并建立脱机介质管理数据库。2.脱机介质编码规则脱机介质的编码规则由“业务类型-脱机介质类型-移交年度-载体顺序号”组成,其中“业务类型”占1位,“脱机介质类型”占2位,“移交年度”占4位“,载体顺序号”占4位,共11位。业务类型代码用1位来表示,‘G’标识保管业务;‘Y’标识利用业务‘;B’标识备份业务,‘Z’标识异地备份。介质类型代码用2位来表示,‘GC’标识CD光盘,‘GD’标识DVD光盘,‘GB’标识蓝光DVD光盘;‘YJ’标识机械硬盘、‘YG’标识固态硬盘;‘CL’标识LTO磁带。移交年度用4位来表示,用于标识该套数据存入脱机介质后移交到备份管理处的年度。顺序号用4位来表示,用于标识某种类型介质的顺序号,不足4位时前面补0。这样的编码便于统计这种类型介质的脱机载体的数目,只需要看顺序号目前使用的最大值就可以统计出这种类型介质的脱机载体的数目。3.脱机介质管理数据库在移交的离线数据达到移交的标准后,将接收的脱机介质根据编码规则进行编码,登记到脱机介质管理数据库,并定期对这些脱机介质进行检测,发现问题及时解决,以保证离线数据安全、可用。4.数字化档案数据转胶片为了延长移交离线档案的保存期限,云南省档案局开展了数字档案转存胶片的工作。数转胶工作流程如下图3:经过冲洗后的胶片在正常的环境下可以保存近50年,可以极大的延长数字档案数据的保存年限,确保数字档案馆建设成果安全。

作者:熊爱桃 何畏 叶惠杰 单位:云南省档案局