美章网 资料文库 混合云存储环境下的数据访问范文

混合云存储环境下的数据访问范文

本站小编为你精心准备了混合云存储环境下的数据访问参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

混合云存储环境下的数据访问

《计算机工程与设计杂志》2014年第七期

1云端数据保护的相关研究

1.1安全性云端数据的安全性主要指用户存放在公有云存储空间内的数据内容不被任何未经授权的实体访问、修改和删除。实现其安全性的手段主要有两种:①通过访问控制机制对用户操作权限的认证和授予;②对用户存放的数据内容进行加密[1],分割[2]等处理。将两者进行结合,采用第三方访问控制和加密密钥分发机制,可以进一步地增强用户云端数据的安全性,并避免不可信的公有云存储服务提供商获取用户的私密信息和数据。

1.2可用性云端数据的可用性也是衡量一个云存储系统的重要指标。服务提供商应当为用户提供按需无错的数据服务,但数据损坏和数据丢失的事故无法完全避免,每一次出现都给用户造成了大量的损失。相关研究提出了将多个公有云存储服务进行整合,形成一个逻辑上的独立存储服务。而存放其中的数据则冗余地存放在多个公有云存储服务提供商中,并采用备份和同步技术来确保少数公有云存储服务故障时用户仍然可以从其他公有云存储服务中获取其需要的数据[3,4]。

1.3数据访问隐私所谓的数据访问隐私保护是指一种防止云存储服务提供商通过用户的访问日志记录学习、分析用户使用行为的机制。由于公有云存储服务提供商根据访问控制手段中的日志记录功能可以获得其所存储数据的访问者、数据的访问时间、被访问的具体数据、用户正在进行或潜在地将要进行的操作、所存储的数据量和访问用户客户端的位置等信息[5]。在这种应用环境下,访问控制策略和用户的访问模式也成为了隐私敏感信息的一部分,应当对其进行保护[6]。文献[7,8]主要研究如何在不影响服务提供商的访问控制机制功能的前提下,对用户访问凭据和身份信息进行保护。文献[7]中使用了基于公钥基础设施(publickeyinfrastructure,PKI)的访问控制机制,数据所有者通过哈希加密和第三方证书发放的机制,确保用户的身份信息在访问过程中不被服务提供商所获取。文献[8]则通过用户的属性信息经过不可逆运算生成访问凭据。通过提交访问凭据,用户获取数据的访问权,而服务提供商无法根据用户的访问凭据获取用户信息。除了在访问控制过程中用户所提供的认证凭据外,用户数据隐私也可以从用户上传的数据文件中获取。文献[2]中提出了基于数据分割分级的隐私保护机制,将数据分割并分别存储在本地和云端,然后根据用户的安全需求联合采用数据染色及不同程度的加密技术进行数据染色和加密。文献[9]中基于数据隐式安全[10]的原理,将数据进行隐式分割并进一步进行二次混淆,以确保云端数据隐私的安全性。

2新的云端数据保护方案

2.1云端数据保护方案描述系统对需要存放在公有云存储空间内的数据文件提取元数据,再对文件内容进行分割或合并等混淆处理后再上传至公有云存储空间,考虑到安全性的需求,还可以对其进行加密处理。元数据信息存放在本地组织内,其中主要包括了原始数据文件的元数据、用户上传时指定的数据处理参数。对于用户云端数据的安全性,考虑到系统性能开销,主要采取分割或合并的混淆方式,如果有特别的安全需求,也可以对数据进行加密。具体的数据安全方案由用户上传时定义,根据上传文件的安全需求采用不同操作对数据进行处理。数据的解密密钥以哈希值的方式存放在元数据信息的数据处理参数中。用户云端数据的可用性则通过在多个公有云存储之间进行冗余存储、及时同步的方式来确保。其备份路径等信息同样存放在元数据信息的数据处理参数中。用户上传数据文件的元数据以及用户进行数据访问时提交给服务提供商的相关信息,是服务提供商学习用户访问行为的主要数据来源。将用户数据内容与其元数据信息分散存储,并对用户上传的数据文件进行混淆或加密处理可以起到对这些信息的保护作用。经过上述处理的数据文件与处理前数据文件的关联只在提取出的元数据中得以体现,而这些元数据将存放于本地的数据库或私有云存储空间内,不会被公有云存储服务提供商所获取,服务提供商仅能获取经过处理后的数据文件所对应的元数据,而这些元数据和经过处理前的数据文件并无明显关联,没有进行学习的价值。用户需要对某个数据文件进行访问时,首先访问存放元数据的数据库,获取有效文件和处理后云端文件的对应关系。分割或合并的处理过程导致这样的对应关系并不固定,可能为一对一、一对多和多对一,可以在一定程度上削弱有效数据文件和处理后云端文件的关联关系,对服务提供商学习用户访问行为的过程起到了相当程度的干扰作用。

2.2混合存储系统本文所提出的混合云存储方案的系统架构如图1所示,用户与私有云存储系统位于企业网络内部,由企业用户管理。而私有云存储系统则通过调用公有云存储的服务接口,将相应数据存放在多个公有云存储空间内。这些公有云存储和企业管理的私有云存储共同构成了一个混合云存储系统,为企业用户提供云存储服务。本文所提出的系统基于Hadoop分布式计算平台所构建,而Hadoop分布式计算平台所使用的文件系统HDFS(Hadoopdistributedfilesystem)默认情况下将文件按照64MB的大小分散存储在多个数据节点(datanode)中。采用接近且不超过其分块单位的文件大小有助于提高HDFS的运行效率。因此本文所进行分割或合并操作的文件大小分类阈值定为HDFS的数据块大小,默认为64MB。从企业内使用者的角度来看,混合云存储系统是一个为用户提供云存储服务的整体,在逻辑上显示为一个文件目录系统中,而实际的物理空间分配却并非如此。用户在上传数据文件至混合云存储系统中时,需要根据文件内容自行决定是否将其存放在公有云空间中。用户上传完成后,上传的文件将临时存放在私有云存储空间内,由系统进行进一步处理,用户上传文件流程如图2所示。数据文件的元数据包含了相应文件的逻辑位置、物理位置、处理流程和加密密钥的哈希值等信息,确保系统可以根据元数据信息正确地处理和获取文件。对于用户指定存放在私有云存储空间内的文件,系统不再进行额外处理,而对于用户指定存放在公有云存储空间内的数据文件,系统将根据元数据信息对用户已经上传到私有云存储空间内的文件进行处理,生成处理后的数据文件上传至公有云存储空间,并更新元数据信息,如图3所示。用户对混合云存储系统中的数据进行读取时,若数据文件存放在私有云存储空间内,则用户需要时可以直接进行访问。而对于存放在公有云存储空间内的数据,系统需要根据元数据信息从公有云存储空间内将其读取到本地,并进行逆向处理得到原始的用户数据文件,这个过程如图4所示。

3混合云存储系统分析

3.1数据安全性分析经过混合云存储系统处理并上传至公有云存储空间内的用户数据通常经过了分割或合并的混淆处理。对于可以直接访问云端数据的攻击者来说,数据分割合并处理时生成的元数据信息是存放在私有云内部的,攻击者无法直接获取,因此也就无法获取混淆处理前的原始数据。若只根据访问记录来判断云端数据之间的关联关系需要耗费大量的时间,而且这个开销随着数据量的增大而增大。此外,若用户选择对数据文件进行加密处理,则攻击者还需要获取文件的解密密钥。因此,对于仅能获取公有云存储空间内数据的攻击者来说,还原用户的原始数据需要花费较大的开销。

3.2数据可用性分析混合云存储系统中的公有云存储部分由多个公有云存储服务组成,用户的数据文件被冗余地存放在多个公有云存储空间内。若某个公有云存储空间内的用户数据不再可用,系统仍然可以从其他的公有云存储空间内获取相同的用户数据,保证了用户数据的可用性。

3.3数据访问隐私保护分析公有云存储服务提供商获取的用户数据访问隐私可以分为两种:公有云端数据文件的元数据信息和用户对公有云存储服务的使用记录。服务提供商以获取到的用户数据访问隐私信息作为样本,利用机器学习和数据挖掘技术对样本进行学习,从而获取样本数据中隐含的信息。为了对用户数据访问隐私进行保护,本文所采取的思路是对服务提供商所采集到的数据样本集合进行伪装和隐藏,使其无法获得真实准确的样本信息从而影响其机器学习结果的准确性。但是考虑到公有云存储服务提供商必须对服务使用者进行访问控制身份验证,因此一部分数据访问隐私例如访问客户端地址、访问时间等是无法对服务提供商隐藏的。从公有云存储空间内数据文件的元数据来看,表1是需要进行分割处理的用户数据文件处理结果,原始文件为66.54MB大小的rar类型压缩文件。表2是需要进行合并处理的用户数据文件处理结果,原始文件为4个425.7KB的jpg图像文件。由表1和表2的处理结果可知,经过混合云存储系统处理后的用户数据文件,服务提供商所获取的大部分元数据信息与原始文件的元数据并不一致。当用户需要获取一系列数据来完成一个复杂的业务流程时,对云端数据的请求指令构成了一个请求队列,该队列的组成通常具有较为固定的模式,这是由用户所要进行的业务流程确定的。使用混合云存储系统对处理后的用户数据文件进行冗余存放,用户随机向不同的服务提供商发送数据访问请求,从而降低了用户数据请求操作之间的关联性,单个服务提供商分析用户正在进行和潜在地将要进行的操作将更加困难。综上,本文所提出的方案对云存储服务提供商所采集到的数据样本集合产生了较大的影响,因此也会对其机器学习结果的准确性造成影响,从而起到保护用户的数据访问隐私的作用。

4结束语

本文对公有云存储数据访问隐私保护进行研究,并提出了混合云存储系统的方案实现对用户云端数据安全的保护。该系统主要为当前仍未引起重视的用户数据访问隐私提供了保护措施,经过混合云存储系统处理的用户数据在存放到公有云存储空间后,可以对数据访问隐私信息进行混淆,并对数据信息也进行了保护,防止攻击者或服务提供商获取真实的用户数据访问隐私信息和隐私数据信息,从而实现对于用户云端数据的保护。由于系统只是完成了初步设计和简单实现,在进行数据处理的过程中仍然有一些不必要的开销。因此下一步的工作主要有:①对于现有数据处理方式进行优化,提高系统的效率;②研究其他数据处理技术并引入到系统中,为用户提供更多云端数据保护的选择;③将本文所提出的方案抽象为框架,使其能够与任意符合框架规范的数据处理、底层私有云存储系统、公有云存储服务及用户交互方式进行组合,实现以元数据信息分离和数据访问隐私保护为核心、可自定义、可扩展的混合云存储系统方案。

作者:张卓奇郭卫斌单位:华东理工大学信息科学与工程学院