本站小编为你精心准备了科学数据资源聚合机制探究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
《前沿科学》2018年第1期
【摘要】根据科学数据资源的内在结构和聚合程度,科学数据资源聚合可分为基于数据的聚合、基于信息的聚合、基于知识的聚合。三个层次的科学数据资源聚合机制分别以分布式构建技术、元数据互操作技术、本体技术为基础,文章介绍不同聚合机制的内涵与特征,并辅以典型应用予以具体分析。
【关键词】科学数据;数据聚合;数据共享
0引言
科学数据资源是以公益性和基础性为主体的、具有科学研究应用价值的数据资源,包括在观测、监测、调查、试验、实验以及研究等科技活动中产生的原始性数据,以及根据不同科技活动需求系统加工整理的各类数据[1]。科学数据资源是国家科技创新和发展的基础性和战略性资源。由于科学数据资源使用不同的数据模型、专业术语、数据格式表达,并分别存储于不同的数据源,这给科学数据资源共享造成了很大的困难。科学数据资源聚合通过对多源异构的科学数据资源进行揭示,构建资源内容相互关联、多维度、多层次的资源体系,为用户提供一站式资源共享服务。本文系统梳理了科学数据资源的聚合机制,并对每一种聚合机制辅以典型案例予以分析,旨在为科学数据资源共享提供路径选择和方法支持。
1基于数据的科学数据资源聚合机制
基于数据的科学数据资源聚合是对多源异构的科学数据进行逻辑上或物理上的集成,屏蔽各种数据源的差异,并通过统一的检索界面实现科学数据资源的互联和共享。基于数据的科学数据资源聚合机制主要包括数据仓库聚合模式、中间件聚合模式、聚合模式。
1.1数据仓库聚合模式
数据仓库聚合模式通过将不同来源和结构的科学数据按照学科、主题等方式建模,并集中存储于本地数据库,用户通过对本地数据库的访问实现对多个异构数据源的一次性检索。徐志勇设计的面向快速服务的大数据聚合系统即采取数据仓库模式聚合网络数据资源,系统通过在线运行的方式采集网络数据。对于采集到的数据,首先根据行业或领域归类,然后按照逐级划分的方式进一步细化分类,并分别存储在不同的数据库中。对于用户的检索请求,系统通过信息检索单元依次检索各个数据库,然后将检索结果传送给结果分析单元。结果分析单元对检索结果进行去重判定,然后将经过筛选的结果传送给结果总结单元。结果总结单元对上述结果进行归纳,并按照特定的序列排序,形成最终结果。最终结果通过结果显示单元反馈给用户。该系统的特点是,海量网络数据经过系统的逐级划分实现细化,为后续的快速检索服务奠定基础;将数据分别存储在不同的数据库中,既可以增加信息的存储量,又有利于后期的多库检索,提高检索效率;去重判定则保证了检索结果的准确性[2]。数据仓库聚合模式通过对异源、异质、异构的科学数据进行抽取、转换、整合,将其集成到数据仓库中,用户通过访问本地数据库,实现对分布式科学数据的一次性检索。数据仓库聚合模式是对科学数据进行集中存储、管理、检索的方法。其优点是数据质量高、查询速度快,缺点是建设数据仓储需要大量的存储空间,所获数据具有时滞性。
1.2中间件聚合模式
这是一种对异构科学数据进行集中式管理和分布式存储的虚拟聚合模式[3]。它通过在用户与数据源之间设置中间件层,实现不同数据源之间的信息转换和数据映射,完成科学数据的多源检索和统一输出。赖会霞和张仕设计的基于最小依赖的细粒度科学数据融合系统,采用中间件聚合模式聚合互联网上的多源异构科学数据。系统框架如图1所示,包括:(1)数据采集服务器:访问网络上的数据库、HTML数据、XML数据,并获取相应信息。(2)映射及依赖管理服务器:存储和管理数据源、系统最小依赖集、数据源模式与系统基础数据模式的映射关系。(3)信息融合服务器:通过映射及依赖管理服务器获取数据源和数据模式映射关系等信息,通过调度数据采集服务器访问和获得数据源数据,并进行数据融合处理。(4)数据服务器:解析用户的数据请求并生成查询策略,通过信息融合服务器的查询处理模块访问融合信息数据库,然后将查询结果返回给数据格式化模块,按照用户要求格式化后反馈给用户。(5)系统交互管理服务器:为数据源用户和管理用户提供可视化操作界面。数据源用户借此登记数据源的访问方法、访问路径、数据源数据模式和基础数据模式之间的映射规则,并由映射及依赖管理服务器存储。管理用户借此对数据融合系统进行管理操作。基于最小依赖的细粒度科学数据融合系统采用模块化构造,能够根据需要增加和扩展服务器,有效解决了数据聚合系统重复开发,共享性差等问题;系统采用开放式结构,各个服务器遵循既定的通信接口,各功能模块既可以设置于同一台服务器,也可以设置于分布式环境下的多台服务器,能够适应不同规模的应用[4]。中间件聚合模式通过在数据与用户之间搭建中介媒介完成异构数据聚合,用户无需了解各个数据源的检索要求,就可以一次性集成检索多个数据源。中间件聚合模式的优势在于,所获数据是异构物理数据源的实时数据,保证了数据的新颖性和时效性。不足之处在于,对于每一个查询请求,中间件都需要遍历所有分布式数据源,检索速度慢、效率低[5]。
1.3聚合模式
聚合模式主要通过三类Agent实现科学数据资源的聚合:用户Agent、资源Agent和方Agent。用户Agent提供用户与聚合系统的交互接口;资源Agent将多源异构资源按照聚合系统的表示形式进行描述和转换;方Agent将用户Agent发出的查询请求与所要查询的资源Agent进行匹配[6]。葛敬军等人基于聚合模式构建领域科学数据云,将异构数据中心连接成虚拟的数据网络,为领域科学数据的聚合、访问、管理提供环境和服务支持。领域科学数据云的总体框架如图2所示,包括:(1)虚拟化资源层:通过虚拟化技术把硬件IT资源转变为动态虚拟计算资源池、存储资源池和网络资源池;通过虚拟化引擎把软件IT资源转变为虚拟主机、虚拟数据库和虚拟应用。(2)数据云模型层:在虚拟化资源的基础上,通过数据云模型、数据桥接入模型、异构源集成模型、资源消息模型,为分散在多个数据中心的科学数据资源的聚合提供模型支持。(3)资源聚合层:通过连接系统连接各个虚拟数据中心,将数据中心的科学数据资源聚合成为虚拟的数据云,构建支持科学数据一体化管理和服务应用的云环境。(4)服务管理层:提供科学数据服务的门户界面和服务接口,以松耦合的方式为用户提供数据存储、目录检索、数据检索、数据处理等数据服务以及可视化管理工具[7]。Agent具有自治性、交互性和自适应性等特点,聚合模式通过Agent的上述特点实现科学数据的自动收集、分类、标引、聚合,更加适应科学数据分布性和异构性的特点,弥补了数据仓库聚合模式和中间件聚合模式需要指定数据源的不足,扩大了资源获取的范围和资源应用的效率[8]。另外,聚合模式能够将资源聚合过程中繁重的计算任务细分到多个Agent,这种并行运算方案极大地提高了资源聚合的效率和资源聚合的灵活性。
2基于信息的科学数据资源聚合机制
基于信息的科学数据资源聚合通过对科学数据对象之间的关系进行揭示和组织,使用户能够一站式获取科学数据及其关联资源。基于信息的科学数据资源聚合主要通过元数据实现。元数据是一种相对成熟的科学数据组织技术,当前主流的科学数据共享平台主要以元数据为核心实现科学数据的检索和共享[9]。基于信息的科学数据资源聚合机制,就是通过科学数据的元数据描述、组织、搜索、关联,将存储于不同物理位置的科学数据进行逻辑集成。黎建辉等人针对全球变化研究领域难以高效定位与汇聚分布、异构的遥感空间科学数据的情况,设计了一种基于元数据的空间科学数据自动聚合方法。首先,选定空间科学数据源,由服务器对其进行定期访问,并生成下载任务。服务器根据下载任务下载元数据文件并保存,然后对下载的文件进行质量检查、元数据项提取、元数据转换、元数据入库和建立数字索引。服务器将元数据文件路径、元数据项保存到元数据项数据库并建立索引。服务器建立元数据文件、元数据项数据库数据、索引数据之间的映射关系,并提供统一的数据检索接口。服务器根据查询条件,查询并返回实体数据;如果没有检索结果则提交数据预订申请,生成实体数据下载任务进行下载,并对下载数据进行质量检查和元数据项更新。该科学数据自动聚合方法可以一站式查询、获取分布在全球各地的海量、异构空间科学数据资源,很好地解决全球变化研究领域的数据自动汇聚问题[10]。为了最大限度地帮助网络文学工作者利用网络文学数据,推动网络文学的发展,孟念珩发明了一种基于元数据的网络文学科学数据汇交系统。系统框架如图3所示,包括:(1)收集模块:根据不同学科不同类型数据的共有属性,如学科属性、采集时间、采集地点、类型、采集单位、保管存放地点等,组建数据的元数据内容,设计元数据标准格式。(2)链接模块:利用网络文学科学数据的元数据组织管理数据,建立各个信息对象之间的关系,为用户提供多层次、多途径的检索体系,方便用户发现、检索和使用数据。(3)获取模块:获取用户提交的资料数据、查询条件、网站信息。(4)输入模块:将查询结果信息提交到用户指定的网站,并将返回结果编码。(5)拆分、汇总模块:根据HTML标签截取返回结果中的数据内容,然后按照设定的模式拆分数据内容,并将其放入对应的字符串数据集进行汇总。(6)输出模块:将检索到的所有结果保存到数据集并输出。网络文学科学数据汇交系统利用元数据聚合数据资源,从而形成立体化的资源服务体系,便于用户通过多种方式获取和使用数据[11]。基于信息的科学数据资源聚合的核心是通过元数据互操作,在不同数据源之间建立关联,揭示客观存在于其中的数据实体的关系,从而使分散的、异构的科学数据及其关系形成一个有机关联的整体。基于信息的科学数据资源聚合的优势表现为资源聚合的全面性和系统性,聚合范围涵盖不同来源、不同载体、不同类型的科学数据,并且可以在“一站式”检索的基础上,获得具有不同关联关系的科学数据。
3基于知识的科学数据资源聚合机制
基于知识的科学数据资源聚合是对数据实体中包含的概念及概念之间的关系进行表征,并构建不同科学数据实体中概念之间的关联,便于用户对科学数据的理解和重用。本体是人工智能领域中一种先进的知识表示方法,其概念颗粒度比分类词、主题词、主题图等的概念颗粒度更小,也更适用于揭示精确语义关系和语义推理。基于知识的科学数据资源聚合机制就是通过构建本体库,实现语义层面上的科学数据资源聚合[12]。耿玉水和寇纪淞针对大规模的数据密集应用,构建了云计算环境下基于本体的异构数据聚合系统。系统利用部署在云端的异构数据集成接口,对云端的异构数据进行数据格式和数据语义的集成。具体而言,采用基于XML的数据格式解析中间件进行数据格式的重新整理,解决数据结构冲突;利用语义冲突检测机制主动发现并解除语义冲突,实现异构数据语义集成。部署在云端的联邦虚拟数据库,利用异构数据结果集成接口连接云端的各个异构数据集成接口,并对这些接口提供的已完成数据格式和数据语义集成的数据进行再集成。基于本体的异构数据集成模型为异构数据的统一检索和查询,以及异构数据的关联与映射提供了一种便捷的实施框架[13]。顾茜等人针对SaaS(软件即服务)等网络应用所积累的大量托管异构数据,设计了一种基于云计算平台的网络应用数据聚合系统,以实现基于语义的网络应用数据的聚合。该系统采取的即是基于知识的科学数据资源聚合机制。系统框架如图4所示,包括:(1)本体库生成模块:根据现有知识建立本体库。(2)关键词提取模块:从海量网络应用数据中提取网络应用的关键词。(3)相似本体确定模块:计算网络应用的关键词与本体库中本体的语义相似度,确定网络应用在本体库的相似本体。(4)描述生成模块:使用RDF描述与本体库中的本体相似的网络应用数据。(5)数据存储模块:将网络应用的数据存储在本体库中相似本体下的网络资源存储节点。(6)关键词查询模块:接收用户通过查询系统输入的查询关键词,通过语义计算查询与关键词语义相似的本体,并将该本体下存储的应用信息库反馈给用户[14]。本体作为一种具有结构化特点的术语集,通过对领域知识的规范描述,使领域知识可以被复用和共享。基于知识的科学数据资源聚合,通过本体的语义映射实现异质异构科学数据之间的语义联系,将相对独立的科学数据连接为立体的知识网络,为用户呈现出具有完整结构、规范有序的知识地图,从而真正实现领域知识的共知和共享。
4结语
科学数据资源聚合需要依赖一定的技术手段,三个层次的科学数据资源聚合分别建立在分布式构建技术(数据仓库、中间件、Agent)、元数据互操作技术、本体技术之上。基于数据的科学数据资源聚合通过先进的信息技术对异构异质的科学数据资源进行物理集中或逻辑集成,实现多种资源的“一站式”检索,但是未对数据对象之间的关系进行有效揭示和组织。基于信息的科学数据资源聚合机制借助元数据实现,由于元数据存在资源描述粒度较大、缺少全领域共享概念模型等问题,导致以元数据为核心的科学数据资源聚合机制难以解决科学数据之间的语义异构问题,无法实现语义检索和知识推理。基于知识的科学数据资源聚合机制,通过本体技术对数据实体的内部概念和语义进行揭示,对数据的描述粒度也更加细化,并且易于为关联数据[15],形成开放互联的科学数据网络。基于知识的科学数据资源聚合使科学数据从孤立走向互联,从封闭走向开放,必将成为今后科学数据资源共享的发展方向。
作者:吴卫娟