前言:我们精心挑选了数篇优质企业数据存储方案文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
【关键词】海量数据;电力企业;存储
1 引言
在电力行业,坚强智能电网的迅速发展使信息通信技术正以前所未有的广度、深度与电网生产、企业管理快速融合,信息通信系统已经成为智能电网的“中枢神经”,支撑新一代电网生产和管理发展。目前,电网公司已初步建成了国内领先、国际一流的信息集成平台。随着各地集中式数据中心的陆续投运,一级部署业务应用范围的拓展,结构化和非结构化数据中心的上线运行,电网业务数据从总量和种类上都已初具规模。随着后续智能电表的逐步普及,电网业务数据将从时效性层面进一步丰富和拓展。电网业务数据将跨入海量数据时代,如何处理这些海量数据已成为电力企业信息管理首要解决的问题。而在海量数据的处理中,如何有效地保存和恢复数据就成了这些问题当中的首要问题。
2 海量数据特征
海量数据按照数据结构来进行划分,可以划分为结构化数据和非结构化数据两大类。
(1)结构化数据:简单来说就是数据库, 即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等
(2)非结构化数据:相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)
按照数据的时效性而言,海量数据又可划分为实时数据和离线数据两类。
实时数据:实时数据一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
离线数据:对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
3 企业海量数据存储现状
3.1 海量数据导致存储成本、维护管理成本不断增加
大型企业都面临着业务和IT投入的压力,与以往相比,系统的性能/价格比更加受关注。GIGA研究表明,ROI(投资回报率)越来越受到重视。海量数据使得企业因为保存大量在线数据以及数据膨胀而需要在存储硬件上大量投资,虽然存储设备的成本在下降,但存储的总体成本却在不断增加,并且正在成为最大的一笔IT开支之一。另一方面,海量数据使DBA陷入持续的数据库管理维护工作当中。
3.2 海量数据缺乏快速备份与灾难恢复机制
传统的数据库备份技术,如通常采用的磁带备份方式,不能运用于海量数据,因为磁带备份将使备份时间增加,需要几小时-几天,不仅影响了生产,而且增加了备份的难度,使得备份/恢复变得缓慢而且不可靠,几乎无法在固定的时间窗口完成备份工作。另外,第三方备份软件隐含的成本代价如成本开销、复杂度、昂贵的实施等也是企业需要考虑的。因此海量数据安全显得异常重要,只有通过引入有效的备份、方便高效的备份恢复技术,才能满足海量数据安全的需要。
4 存储解决方案概述
在海量数据存储中我们主要考虑的是大数据的存储,虽然现行的商业平台也能满足非结构化数据的存储,但问题主要出在系统可扩展性和建设费用上。对于庞大的非结构化数据存储产生的I/O瓶颈问题和昂贵的服务器价格不得不使我们另谋出路。
Hadoop的分布式文件系统HDFS出现恰好解决了商业平台中的I/O瓶颈和服务器价格昂贵问题。Hadoop的优势体现在以下几个方面:
(1)Hadoop依赖于低端服务器甚至是普通计算机,相对于商业平台的高昂成本,它的成本要低得多,几乎可以说任何人都可以使用它,哪怕是信息化成本预算较少的小微企业;
(2)HDFS与Map/Reduce紧密集成是Hadoop分布式计算的存储基石。它有自己明确的设计目标那就是支持大的数据文件大至T级,并且这些文件以顺序读取为主,以文件存/读的高吞吐量为目标。在使用HDFS分布式文件系统存储非结构化文件后,将提高我们系统的存储文件速度;
(3)HDFS的数据恢复能力也保证了系统的安全可靠性,可靠性体现在它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
(4)同时支持存储节点的热插拔和可以在普通PC机上存储非结构化文件,这不但提高了系统的扩展灵活性,还大大降低了企业在硬件方面的投入
5 应用架构
在本存储解决方案中,我们选择了Hadoop作为数据文件存储机制,Hadoop中的HDFS存储数据可以选择普通的PC机器作为数据节点,这大大的降低了存储数据所需要昂贵存储设备价格,并且在数据存储过程中,HDFS拥有很好的数据容灾机制。
6 HDFS
Hadoop的存储主要使用HDFS来进行管理,HDFS是一个分布式文件存储系统。HDFS起源于Apache Nutch Web 搜索引擎项目。
对于HDFS分布式文件系统中的块进行抽象会带来很多好处:
(1)文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块不需要存储在同一个磁盘上,因此他们可以利用集群上的任意一个磁盘进行存储。
(2)使用块抽象而非整个文件作为存储单元,大大的简化了存储系统的设计。简化是所有系统的目标,但对于故障种类繁多的分布式系统来说尤为重要。
(3)块非常适合用于数据备份,进而提高数据容错能力和可用性。
6.1 HDFS架构
6.2 HDFS文件存储方式使用大块的原因
HDFS的块比磁盘大,其目的是为了最小化寻址的开销。如果块设置的足够大,从磁盘传输数据的时间可以明显的大于定位这个块开始位置所需的时间。这样,传输一个由多个块组成的文件的时间取决于磁盘的传输速率,由此可见适当的设置磁盘块空间大小可以加快数据读写效率。
6.3 HDFS的集群管理模式
HDFS集群有两类节点,并以管理者――工作者模式运行,即一个namenode(管理者)和多个datanode(工作者)。管理者管理文件系统的命名空间,它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像和编辑文件日志。工作者也记录着每个文件中各个块所有在的数据节点信息,但它不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。
6.4 HDFS文件写入方式
客户端通过调用HDFS类DistributedFileSystem对象调用create()函数来创建文件,在此时文件系统的命名空间中创建了一个新文件,但该文件还没有相应的数据块。管理者(namenode)执行各种不同的检查确保当前创建的文件不存在,并且客户端有创建该文件的权限,如果检查通过则创建新文件记录;否则,文件创建失败并抛出异常。在客户端写入数据时,数据被分成一个个的数据包,并写入内部队列,HDFS的DataStreamer处理数据队列,它的责任是根据工作者(datanode)的队列列表要求管理者(namenode)分配适合的新块来存储数据备份。如下图
7 实现功能
海量数据存储部分主要包含了三部分的功能:数据采集、数据存储与备份、数据分析,如图所示:
7.1 数据采集
海量数据存储采用开放上传接口的方式进行被动数据采集,各业务平台通过向上传接口传递业务平台标识、文件信息标识和文件信息的二进制流的方式将文件打包传送到非结构化数据管理平台,非结构化数据管理平台通过业务平台标识对传输过来的文件进行分类解码存储。
7.2 数据存储与备份
海量数据管理在接收到各业务平台发送过来的文件后,根据业务平台标识在HBASE中生成文件信息数据,同时将文件存储至HBase中。
7.3 数据分析
基于已存储的数据,可以分析各业务平台的数据量,数据高峰的周期,从而适时调整数据存储策略,为不同的业务应用制定不同的存储计划,充分体现系统存储的灵活性,提升海量数据的存储效率。
8 方案总结
关键词:企业 数据保护 数据存储
中图分类号:TP391 文献标识码:A 文章编号:1007-3973(2011)008-075-02
80年代以后,以IT技术为代表的信息产业迅速崛起,给我们的生活和思维带来了强大冲击。与此同时,顺应信息发展的需求,各种企业也开始纷纷建立起属于自己的信息网络平台,包括电子商务和网站管理等系统。于此而来的是相应数据量的不断增长以及新的数据管理的应用而生,数据保护和存储安全问题开始愈来愈受到各企业的关注和深思。目前,企业数据库己呈现出了不可预计庞大的增长态势,数据正日益成为公司的实际资产之一。据相关组织的保守估计推测,企业数据每年大约增加80%。
1 存在的问题
20世纪,企业对重要文件的保护主要是借助于保险柜保存,并派人保护。到了2l世纪,企业开始全面实行自动化办公,计算机网络成为信息的数据化处理与存放的工具。然而,由于计算机的共享性和扩散性特性,使得信息在处理、存储、传输的过程中存在很容易被泄露、窃取的风险。据调查,至2007年上半年,瑞星公司接受求助的受害用户已经达到10多万人。接着信息保密技术跟进,企业的信息安全隐患更加得到重视,管理者不再简单满足于防火墙等初级防御手段,企业数据保护和存储安全解决新方法亟待出现。当前出现的问题有:(1)移动磁盘泄密,造成该现象的主因是将数据存放于不安全的移动磁盘中,并且没有将数据进行有效的加密。(2)word文档泄密,主要是一些破解软件乘机下手,使数据丢失。(3)打印机泄密,现在企业大多采用碎纸机可以将无用的或遗漏的文件切成粉末,使之无法还原,但是虚拟中的粉碎我们视而不见。(4)邮件泄密,它是通过一种网络病毒来伪造收件人的地址,从而欺骗阅读者。根据最新IT Policy ComPliance Gro-up报告显示:公开报道数据丢失的企业预计将会导致客户及收入降低8%;对于上市公司而言,每股股价会下降8%。
2 企业数据保护措施
2.1数据备份
对于一个企业来说,提供可靠的数据保护是至关重要的,也是企业核心竞争力的重要王牌。其中最有效的保护数据的手段是数据备份。而以磁带系统为核心的数据备份是企业数据保护的一个重要手段。该系统不仅能保证大容量数据的安全,并且在数据发生灾变时,可以在短时间内完成数据的恢复,保证企业中各种业务系统的正常运做,是数据安全保护的必然选择。有权威统计表明:93%的公司会由于为期10天或以上的数据中心灾难,而导致在灾难发生的一年内破产。为此,中小企业需要适合自己的数据保护解决方案,以保证业务的连续性运作。
2.2生物特征识别技术
随着电子信息量的急速膨胀,电子文档的保护也成为全球关注的问题。在电子文档保护中使用生物特征识别技术来加以保护,也被普遍认为是电子文档保护的最优方案。但为了方便文档在合法前提下共享的便利性,必须以解密密钥的生物特征模板以某种形式整合到文档内部,这形成了很大的破解风险。寻找更严密的电子文档保护方法,也成为电子信息安全领域中具有挑战性的研究之一。清华大学研究人员设计了一种基于指纹身份验证技术和移动密钥的电子文档保护方法。该方法在执行身份验证时,不但要求用户提供指纹作为验证依据,而且要求用户提供与本人身份相符的移动密钥。
2.3企业机密电子数据保护
企业机密电子数据和企业发展密切相关,加强对这些电子数据的安全存取保护是目前企业最为关心的一个问题。根据企业实际安全需要,采用非主动加密的思想,通过完善的网络安全管理结构,密钥管理服务器和电子数据的安全存取机制,建立了一种适应企业安全需求的企业电子数据安全监控系统。该系统通过密钥服务器实现对密钥的透明访问,以及对企业机密电子数据的透明加解密处理,确保了企业机密电子数据的安全。如CDP(Contimuous Data Pro-tection,持续数据保护)计划。最近,SafeNet和Aladdin正式进行合并,公司将保护全球最多的电子银行交易、提供最多的数字身份认证产品、提供最多的软件保护产品,将进一步带动机密电子数据保护的大发展。而赛门铁克公司也推出了市场领先的企业数据保护解决方案Veritas NetBackup 6.5。凭借NetBackup平台,企业可获得前所未有的灵活性和多样选择等最佳性能,帮助企业在复制、快照、持续数据保护、重复数据删除、加密、虚拟磁带和传统磁带中选择一流的技术。
3 企业数据存储安全措施
存储是一种服务,这是比较新的概念。从数据中心到桌面及整个技术存储线,关键解决围绕在信息周边的安全问题。过去,存储被看成是受至于服务器访问控制和文件系统特权保护的“子系统”,而现在,存储已成为基于高速的光纤通道、光学传输等为一体的智能的、多协议的网络服务。安全存取技术分析是以电子计算机主要的安全技术为主线,针对不同的问题提出相应的解决方法的,如企业电子数据的安全存取保护。目前,企业电子数据安全存取解决方法,主要的有逻辑加密盘技术、文件系统监视器、电子文件保险箱。其中逻辑加密盘技术的基本思想是在操作系统上增加设备管理的内核服务,为用户提供用于保存电子文档的虚拟盘。文件系统监视器主要是监视所有文件系统中活动的应用程序。电子文件保险箱主要保证电子文档的存储安全,相当于将电子文档存放在一个“保险箱”中。但仅仅这些努力是不够的,对于一个企业的生死存亡来说,机密电子数据的存取是绝对要重视的。
3.1虚拟磁带库
对于小型企业来说,选择存储产品应该从两点来考虑,首先要根据业务实际产生的数据量;其次是考虑业务数据的增长量。目前比较流行的存储系统解决方案有磁盘阵列、虚拟磁带库和磁带库等。借助基于虚拟磁带库的磁盘备份,中小企业就可以实施更快的流程,并且在查找、检索数据时几乎不会出现差错,减少了对以往磁带备份的依赖,在节省大量成本的同时,还可获得更可靠的备份流程,让数据保护更加简单。如AIO+D2D+自动加载机的出现。AIO是惠普公司推出的一款面向中小企业的一体化网络存储系统。借助AIO,中小企业无需中断应用即可进行备份,实现可靠的数据保护。现在,借助HP StorageWorksVLSl000i和迷你虚拟磁带库产品,中等规模企业和远程公司、分公司得以使用全新的解决方案。
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。
通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。
EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。
EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。
杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。
EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。
方案点评
EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。
HDS UCP:统一平台 应用优化
HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”
大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。
大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。
HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。
方案点评
其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。
HP StoreAll :快速部署 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。
第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。
目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。
惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。
如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。
方案点评
惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。
对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。
无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。
在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。
NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。
NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。
用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。
方案点评
NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。
首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。
其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。
最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。
从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。
针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。
“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”
曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。
针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。
曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。
针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。