美章网 资料文库 海量数据离线存储系统研究范文

海量数据离线存储系统研究范文

本站小编为你精心准备了海量数据离线存储系统研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

海量数据离线存储系统研究

《中国档案杂志》2016年第二期

近年来,随着档案信息化的发展,我国各级各类档案馆所保存的数字档案信息急剧增加,且呈持续快速增长趋势。海量档案信息的安全管理问题已成为各级档案部门面临的重要问题。随着国家电子政务的进一步推进,该问题将愈加突出。为此,各档案馆综合利用在线存储、近线存储、离线存储等不同方式,对档案信息进行存储和备份。许多档案馆在制定本单位的存储策略时,针对档案信息安全要求高、使用频率相对较低等特点,综合考虑在线和离线等存储方式的技术特点和投资情况等因素,将离线存储方式作为本单位海量档案信息的存储策略之一。如何科学合理地进行海量数据离线存储,已成为档案工作者在解决海量档案信息安全存储问题时面临的重要课题。为此,国家档案局档案科学技术研究所、浙江省档案局(馆)、北京汉龙思琪数码科技有限公司三家单位联合开展“海量数据离线存储系统研究”课题的研究工作。课题针对海量档案信息的存储和异地备份的实际需求,提出了档案数据离线存储整体解决方案,研制了系列硬盘离线存储柜,开发了硬盘离线存储管理系统,制定了档案工作行业标准《档案数据硬盘离线存储管理规范》(草稿)及相关操作规程。课题研究成果将对硬盘在海量档案信息离线存储中的应用起到重要的指导作用。该课题荣获2015年度国家档案局优秀科技成果一等奖。

一、现状与问题

海量档案信息的长期安全保存已成为档案部门面对的共同问题。各地档案部门多采用在线备份、近线备份和离线备份相结合的策略,对海量档案信息进行存储。每种存储方式各有其技术特点,其中,在线存储方式具有数据更新及时、信息查询速度快等诸多优势,但是,其购置成本高,运行维护费用大,海量档案数据全部进行在线存储需要很大的经费投入。综合考虑档案数据具有重要程度高、安全要求高、使用频率相对较低等特点,许多档案馆都采用了在线存储和离线存储相结合的存储策略。一般将利用频率高的数据进行在线存储,以方便快速查询利用。将利用频率不高的数据进行近线或离线存储,以实现长期保存的目标。目前,档案部门选用的存储载体主要为硬盘、磁带和光盘,每种存储载体各有技术优势。作为主要存储载体之一,硬盘在档案信息存储备份工作中得到了越来越多的应用。硬盘具有数据读取速度快、技术发展迅速、单位存储成本逐年快速降低、单盘介质存储容量相对较大等优势,硬盘在数字信息在线存储中有着广泛和稳定的应用。近年来,越来越多的档案馆开始将硬盘作为离线存储载体用于海量档案信息存储。经过几年的实践,硬盘在档案信息离线存储中发挥重要作用的同时,由于硬盘自身的技术特性存在一定劣势,以及保存和使用不当等原因,造成了硬盘损坏、数据丢失等问题,已成为档案信息安全的极大隐患。

影响硬盘可靠用于离线存储的问题主要体现在以下方面:硬磁盘需要定期进行加电和启动运行以保证其正常运转,而有些档案馆由于条件限制,直接将硬盘离线存放于档案库房中,长期无法加电;硬盘存储对温湿度等环境条件要求较高,有的档案馆长期将硬盘存放于后库中,无法达到硬盘存储所需的环境条件;硬盘的防震和抗冲击力较弱,而硬盘用于异地备份时要经过多次搬动和长途运输,难免引起震动;硬盘数据可擦写、易修改,用于档案信息保存时必须能够防止恶意修改;单块硬盘容量有限,用于海量档案数据离线存储时,为便于管理,多块硬盘级联的问题需要解决。解决上述问题,需要针对性地开展研究,通过科学、有效的技术手段,为离线硬盘提供多重保护、检测和管理机制,以弥补目前硬盘用于离线存储时所表现出的技术特性的不足,防止由于硬盘损坏带来的数据丢失问题,为硬盘在海量档案信息异地备份工作中的应用提供技术支撑,便于档案部门对离线数据的有效管理,使数字档案信息资源得以长期安全保存。

二、解决方案

课题组通过理论研究、调查研究、实验验证和分析归纳,研究制定了硬盘用于海量档案数据离线存储的整体解决方案。该方案从总体架构、系统工作流程、硬件存储柜及软件系统功能等方面,设计了海量数据离线硬盘存储系统。

1.总体架构海量档案数据离线存储系统由硬件系统和软件系统组成,并辅以系列化的操作规程,实现档案数据硬盘离线存储的科学化、规范化。该系统可以改变传统硬盘存储系统内设备群开、群关的管理和应用模式,可实现存储系统内硬盘在线和休眠状态的按需转换;在确保硬盘存储系统低功耗运行的同时,实现档案数据的快速检索应用;可解决离线设备的自动定期检测、定期加电维护等技术问题,实现对硬盘存储系统的保护。

2.工作流程海量档案数据离线存储系统功能主要包括:磁盘入库登记、检查磁盘在位、检查磁盘参数、建立档案目录结构、目录挂接、建立数据镜像、档案目录检索、硬盘出库、数据利用、查看原文、导出数据、打印数据等。总体方案对所有功能进行了流程化处理,并将用户规划为三类角色:磁盘柜管理员。主要完成磁盘入库登记、检查磁盘在位、检查磁盘参数、磁盘出库等工作。数据管理员。主要完成建立档案目录结构、目录挂接、建立数据镜像等工作。档案利用人员。可进行档案目录检索、查看原文、导出数据、打印数据等操作。

3.软硬件功能硬盘离线存储柜硬件系统包括柜内硬件和柜体两部分。柜内硬件主要分为四部分:硬盘阵列控制器模组、SATA总线交换控制模组、本地主控模组和电源模组。每个模组独立完成特定的功能,模组之间通过控制线和总线连接,相互配合完成硬盘之间的数据传输、系统控制及供电控制。硬盘离线存储柜主要实现对硬盘的集中管理,柜体具备防尘、防磁、防水、防盗、抗冲击、承受高低温变化等功能,可在低电压下工作,并配备备用供电电池。软件功能主要包括:数据快速迁移、人机交互、硬盘定期循环自检、状态监控、定期对硬盘进行加电维护、离线数据管理、数据快速利用等。

三、研究成果

课题组设计研发了具有SATA总线交换模块的硬盘离线存储柜和与之配套的管理软件系统;制定了规范化的硬盘离线存储操作规程;起草了《档案数据硬盘离线存储管理规范》,并以此为草稿申请档案工作行业标准制定计划;成功申请了多项技术专利。

1.硬件设备硬件设备系列成果主要为两大类设备:数据迁移设备和硬盘离线存储柜。通过两类设备,可实现档案数据迁移、档案数据离线存储和在线检索、硬盘检测和故障报警等功能。(1)移动式数据迁移设备针对许多单位进行光盘、硬盘等载体多套备份的需求,设计了数据迁移设备。利用该设备可实现硬盘间一对多的数据迁移,也可实现光盘到硬盘的一对多的数据迁移,并可根据需要制作光盘镜像。根据数据快速采集和备份的需求,设计了移动式的数据迁移设备和便携式数据迁移设备。(2)离线硬盘存储柜课题组研发了多硬盘存储的离线硬盘柜,解决了硬盘离线存储的保存环境问题和定期低压充电问题。根据不同应用环境和不同应用需求,将硬盘离线存储柜设计为办公式、机柜式、仓储式和军用备灾式四款。每一款硬盘离线存储柜都具有防尘、防盗、防磁、散热好等特点,并配备了防盗门锁,防止非法开启柜门。实现了机柜之间的级联及柜内多个硬盘的级联,单个机柜可提供百块硬盘的盘位。

2.软件系统软件系统主要包括数据迁移管理系统、柜内触摸屏查询系统和离线硬盘存储管理系统。三个软件系统支撑了光盘数据迁移、柜体独立管理及控制终端管理。软件系统可实现对离线硬盘数据的完全控制,防止硬盘数据的非法读写与修改;对每一块硬盘的物理状态进行实时监测与可视化显示及报警;建立了整套预警机制;实现对多个硬盘和多个机柜的级联与管理;实现对预警硬盘的备份复制。

3.操作规程为规范使用档案数据离线硬盘存储系统,课题组研究制定了系统操作规程,规定了离线硬盘存储的技术要求、检验规则、安全控制、离线存储、在线管理和应用的基本工作流程和基本方法。

4.档案行业标准草稿以研究成果为基础,课题组起草了档案工作行业标准《档案数据硬盘离线存储管理规范》(草稿),以期为档案行业应用离线硬盘开展档案数据备份工作提供标准化依据。该标准已由全国档案工作标准化技术委员会审议通过,并列入档案工作行业标准制定计划。

5.技术专利课题研究过程中应用了大量先进技术,并进行改进、研发。课题组已将SATA硬盘矩阵的远程访问系统、SATA硬盘矩阵级联系统、SATA硬盘写保护系统三项核心技术申请了发明专利。

四、研究意义

该课题对硬盘离线存储模式进行改进,研发硬盘离线存储柜,为硬盘提供多重保护和检测机制,以改变目前硬盘作为离线存储介质时所表现的技术特性的不足,支持在数字档案信息离线存储工作中,对数据进行有效的离线存储和离线管理。该项研究成果将能够为档案部门提供档案信息存储工作的实际解决方案,适用于不同地区、不同环境下档案信息的离线存储工作,具有良好的社会效益和经济效益。

作者:杜琳琳 单位:国家档案局科研所