前言:我们精心挑选了数篇优质云计算数据论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
云计算是下一代的IT架构。运用云计算,可以把应用软件和数据迁移到很大的数据中心。云计算的这一特点带来了很大的安全问题。要研究云计算数据的安全特征,就要首先了解云计算的数据安全模型。
1.1云计算数据应用系统模型
云计算的平台构架主要技术有并行编程的模式,分布式文件系统,数据处理模型。其层次如图1所示。云计算的数据应用共分为三个层次:应用层、索引层和数据存储层。同时要了解云计算数据应用系统的三个要素:用户、应用服务器和数据中心。这三个要素各有着不同的功能,用户的功能是存储数据,在数据计算的基础上,计算个体用户和组织用户的数据。应用服务器的功能是维护云计算的系统。数据中心的功能是存贮实际的数据信息。但是,在云计算数据应用系统模型中,存在着很大的安全威胁,主要是来自传统数据的威胁,容易受到影响的对象有客户端、主从结构和病毒的传播,通信的安全性。其中,病毒的传播主要是通过互联网的数据交易服务,病毒侵入计算机网络系统,它的破坏性远远大于单机系统,用户也很难进行防范。现在的互联网中,病毒一般有隐蔽性,传播速度也很快。另外,病毒的制造技术也越来越高级,不仅可以破坏用户的程序,还可以窃取信息,造成系统的交叉感染。这种感传染性的病毒危害性非常大。对于通信故障,网络中通常分为两种类型的安全攻击类型:主动攻击和被动攻击。常见的攻击手段有偷窃、分析、冒充、篡改。对于数据安全来说,除了上述的数据安全,还有新数据的安全威胁,主要表现在几个方面:保密失效威胁、分布式可用威胁、动态完整性威胁。
1.2云计算数据安全模型
典型云计算数据技术如图2所示。该数据安全模型主要分三个层次:第一层的功能是负责验证用户的身份,保证云计算中数据的安全;第二层的功能是负责对用户的数据进行保密处理,保护用户的隐私;第三层的功能是恢复用户误删的数据,是系统保护用户数据的最后一道防线。这三层结构是相互联系,层层深入。首先要验证用户的身份,保证用户的数据信息不被篡改。如果非法用户进入的系统,则进入系统后还要经过加密保护和防御系统。最后是文件恢复的层次,这一层次可以帮助用户在数据受损的情况下修复数据。
2多维免疫的云数据安全
2.1多维免疫算法
多维免疫算法的组成主要依靠生物原理、免疫系统的多维模型、多维免疫的基本原则组成。其中,生物原理是把生物学的理论应用在云计算中。人工免疫系统发展到现在,在免疫能力的发挥方面有了很大的发展。免疫能力的增长是一个漫长的过程,后天的免疫的生成更是一个艰难的过程。在一个系统生成初期,完全没有后天的免疫能力,但是随着身体的成长,免疫细胞逐渐增多,免疫系统也开始形成。多维免疫系统的形成也是这样的。
2.2多维免疫的数据安全原理
阻碍多维免疫的数据安全的因素主要有不可靠网络、节点故障、超大规模的用户访问、数据更新引起的数据不一致性等。为了提高数据管理的安全性,云计算为用户提供了一个一致的入口,只有向用户提供透明的文件,进行文件数据的定位数据选择。对于数据管理服务,应该注意,这项服务是连接用户和系统的。应用服务器和数据中心共同组成了云计算数据应用系统。应用服务器主要目的是方便用户访问历史和相关的文件信息。
2.3多维免疫的云数据安全策略
主要包括文件分布的策略,HDFS文件冗余度计算,多维免疫的文件分布,数据块选择机制等。对于云计算中的用户文件,需要考虑到数据块的数量分布、数据块的颗粒度和数据库的创建时间。多维免疫的文件分布中,首先要掌握文件分布的原理,多维免疫算法和云计算中文件的创建和文件块的分配法是一致的。
3结束语
1.1大数据的发展
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
3.4能源消耗
云计算是一种根据使用量确定付费的模式,这种模式主要是提供便捷的、可用的网络访问,并进入计算资源共享池,这些资源能够被迅速的提供,只需要投入较少的工作,或者与服务供应商进行很少的交流。目前,高能力的计算发展和应用水平已成为一个地区科研实力甚至一个国家综合实力的重要体现。云计算很大程度上提高了资源的服务水平和利用率,而且避免了跨结点划分应用程序所带来的低效性和复杂性。
二、大数据与云计算对会计信息化的推进
(一)大数据拓展了会计信息化的资源利用范围。
随着数字化、软件和处理能力的发展,对可利用的数据的范围进行了进一步的扩大,企业必须敏感地认识到不同类型的信息通过深加工后能给企业带来怎样的财富,更要掌握哪些信息可以通过信息化技术和软件的进步来实现。大数据时代,会计信息化不再只针对会计作业上产生的数据进行分析,而且云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式,因此可以通过云计算将零散的数据整合在一起,提炼其有价值的信息,再将这些信息与传统的会计信息融合,挖掘被忽视的重要信息,提高会计管理决策能力和企业管理水平,这样就能从行业中脱颖而出。
(二)促进了会计信息化成本降低。
传统的会计信息化需要企业自身投入大量的基础设施建设,同时还要考虑硬件与软件的升级和维护,这方面是阻碍会计信息化发展的重要原因,特别是对中小企业的发展。而大数据与云计算融合后,用户可以根据自己的利用资源的多少和时间的长短付费,不再需要前期大量的工作和资金投入。这样,企业也能将重点放在自身的发展上,增强竞争优势。
(三)提高了会计信息化的效率。
传统的会计信息化受到时间和地域等条件的限制,这样信息交流不及时,可能错过稍纵即逝的机会,尤其是竞争激烈的大环境下,信息获取的及时性更加重要的。在大数据时代的背景下,提供云计算的会计信息化系统只需通过互联网就能随时随地的实现与客户的沟通,及时地掌握所需的信息。同时,云计算强大的计算能力,可以更快地形成所需的各项指标,管理者能更快的了解企业的经营状况并识别潜在的风险。
三、大数据和云计算对会计信息化的挑战
(一)会计信息化共享平台发展滞后。
目前,企业信息化逐步在向社会信息化发展,各企业在加工处理自己的会计信息时会形成这个行业整体的信息流。通过会计信息化共享平台,各企业可以随时知道自己的企业在整个行业或地区的地区和影响力,了解自己的强势和弱势,不断强化自己的优势并弥补自己的不足,实现动态地对公司的持续改善管理。这一平台需要在云计算的基础上发挥作用,而云计算供应商要求能够满足不同用户、不同地域和不同业务规则的需求,所以对其适应性、扩展性以及灵活性要求比较高。我国在这方面起步比较晚,国内的云计算平台建设滞后,使云会计这种新型会计信息化发展面临很大的阻碍。
(二)会计信息化共享平台的数据安全性挑战。