前言:我们精心挑选了数篇优质大数据量解决方案文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
“存储是大数据的重点,我们需要做的就是发挥自身优势,瞄准大数据,为存储行业上下游合作伙伴提供更好、更专业的营销服务。”国内市场领先的专业IT分销商长虹佳华信息产品有限责任公司(简称长虹佳华)董事总裁祝剑秋对企业的增值分销业务有着清晰的定位。
产品与方案:
集聚业界最强资源
正如很多业内专家所说的那样,存储和安全是大数据迫切需要考虑的首要问题。
从海量数据产生的角度,以前数据量都是以GB或者TB记的量级。但如今,情况发生了改变,过去可能多年才能累计产生的数据量,现在可能只用很短时间就会积累起来,一些单位每年产生的数据量就可能达到几十TB,甚至不久的将来就会升级到PB级的数据量,将会占用越来越多的存储空间。
在解决海量数据的存储问题的同时,企业还必须要解决数据的安全性和可靠性等问题。所谓数据的安全性是指数据在任何情况下的可访问性,不会因为人为或自然的因素导致数据不可访问;数据的可靠性意味着即便是在极端情况下,数据发生损坏或丢失,仍有数据可被恢复或直接访问。
显然,解决这些问题必须要靠质量过硬的产品与解决方案。为此,长虹佳华近年来持续在云计算安全和大数据方面进行探索和投入,并且取得了很大成果:
在产品方面,长虹佳华以存储和服务器类产品为主,涵盖HDS、博科、昆腾、EMC、IBM等十余家全球知名、领先的数据存储业务服务商;在解决方案方面,长虹佳华帮助商为多种特定的行业用户提供行业解决方案,并且可以针对用户的不同需求提供定制化的解决方案,从而更加凸显了长虹佳华的综合实力;
在服务方面,长虹佳华并不仅仅重视售后服务,而是为用户提供包括培训、环境测试、技术支持在内的售前、售中、售后的一站式服务。以存储产品为主导构建增值业务群,如今已成为长虹佳华的既定战略。
近几年来,长虹佳华在原有合作伙伴的基础上,进一步与赛门铁克、Radware、博世、迈普等国内外知名品牌紧密合作,集聚了强大的产品与解决方案资源,整体解决方案能力和产品组合能力大大增强,进一步提升了长虹佳华“以数据为核心”的增值分销业务的服务能力。
CDSClub与云计算体验
暨培训中心:为数据安家
CDSClub与云计算体验暨培训中心,一直是长虹佳华享誉存储分销行业的代表之作。CDSClub一方面从技术整合出发,另一方面从渠道伙伴支持出发,两者相结合,就为大数据的应用与销售安下了最好的“家”。
CDSClub是从长虹佳华成功运作数年的SANClub升级而来,其主要功能是给特定的行业提供定制化的数据方案。升级后的CDSClub并不是仅仅局限于SAN架构一种主流技术,而是实现了跨平台的技术整合,使最终的数据方案更贴近实际应用,服务更统一,并且更有针对性。同时,方案的适用性也得到了极大提高。
目前处于国内领先地位的长虹佳华云计算体验暨培训中心,为渠道合作伙伴的数据方案、系统集成提供了演示、测试的广阔平台,对于渠道合作伙伴需要的不同产品组合应用测试、各类定制方案演示等都可轻松实现,是对渠道技术需求的极大补充支持。同时,该中心还充当起长虹佳华对合作伙伴及行业客户进行技术培训、资质认证以及设备服务的支持平台角色。
大数据浪潮正汹涌来袭,与互联网领域其他变革一样,这绝不仅仅是一场信息技术领域的革命,更是在全球范围内加速企业创新、引领社会变革的利器。现代管理学之父德鲁克有言:预测未来最好的方法,就是去创造未来。瞄准大数据的存储业务,长虹佳华正在向最强营销服务提供商迈进……
分销业务业绩骄人
长虹佳华信息产品有限责任公司(即长虹IT)的实际控制人为品牌价值为786.75亿元、净资产约100亿元的四川长虹。长虹佳华拥有长虹的资本、制造优势以及长虹佳华自身在IT领域的产业优势和独特的团队文化,是长虹IT产业的旗舰和支柱企业。
Informatica是全球首屈一指的独立数据集成软件提供商。现在,世界各地的组织在Informatica公司的帮助下,都能为其主要的业务需求提供及时、相关和可信的数据,使其在当今全球信息经济中获得竞争优势。目前,全球已有超过 4,500 多家企业依靠 Informatica 提供的解决方案访问、集成并信任其位于企业内外及云中的信息资产。凭借对技术和客户应用趋势的准确把握,Informatica对于2012年云和大数据的变化有了非常清晰而深入的掌控。
2012年,企业对于云解决方案的思维模式将发生变化。首先,在企业以及政府部门中,云将从考虑阶段广泛进入实施。更多的IT机构将从成本中心转向利润中心,这部分是因为采用了云计算。另外,“离群”云集成和点到点应用集成将被更具战略性的、全公司范围的数据集成战略所取代。这个战略跨越了本地部署和云环境,为即使是中型企业提供了一个单一、统一的公司数据视图。
由于云计算部署的加快,在公共云方面,Gartner预测,到2013年,云计算在整体IT预算中会增长20%或更多,到2016年底,有超过50%的Global 1000公司将在公共云中存放客户敏感数据。在Informatica,我们相信,在2012年,混合环境将成为常态,机构将需要访问和分析在其IT环境中的数据,全面跨越传统的本地部署,以及私有和公共云。
云部署的加快,对大数据解决方案产生了深刻的影响。Informatica相信,越来越多的客户数据“生存”在完全不同的云环境中,公司向面临更多的对于数据质量的挑战。尽管价值客户的慷慨赠与就在云中,但要得到一个非常理想的其客户的单一视图以告知以客户为中心的营销战略,会更难而不是更容易。
同时,2012年,法规遵从、风险管理和推动以客户为中心将继续是机构了解和改善其数据状态的推动力。然而,Gartner预测,“到2015年,超过85%的财富500企业将无法有效地利用大数据获得竞争优势。”Informatica相信,尽管有关于大数据的持续的推广,但是大多数的机构将继续为实现他们所访问的数据的1%的潜在价值而努力,需要利用大数据解决方案获得更大的竞争优势。
在2012年,在大数据解决方案将会如何影响客户服务和关系方面,Gartner预测,“对访问和识别能力的需求,在‘大数据’源,如社交网络中,单个客户、产品和供应商被推荐,以及把他们内部地连接到授权的主数据上,将为改善市场、销售和客户服务提供一个新的机会。”Informatica相信,机构将从理论和计划转向实际部署数据治理和主数据管理(MDM)最佳实践。同时,通过对社交和位置数据的分析获得对客户前所未有的了解,将使得更多的机构放弃大众化营销,转而赞成不仅仅是针对个体的个性化营销,而且针对那些可以影响其他人购买行为的个体进行个性化营销。
在大数据中即将产生的变化影响IT团队方面,Informatica认为,随着企业不断寻求更高的数据回报,Data Steward的角色将变为主流,很多数据相关的责任业务分析师与IT专家已经非正式地结合在一起形成了一个正式的工作职能。而且,对Hadoop开发者将会有更高的需求,技能短缺将继续且很可能加剧。在明年,Hadoop将继续获得牵引力,但在2015年前都不会成为真正的主流。
专注于数据集成的Informatica公司企业数据集成产品管理总监郑玮介绍说:“其实,在大数据这个概念出现以前,大规模并行处理(MPP)的需求早就出现了,横向扩展技术也已得到应用。但是,这些处理大数据的解决方案性价比不高。大数据的概念出现后,越来越多的厂商开始在提高大数据解决方案的经济性方面下功夫。”
Informatica的主要客户是像金融公司这样的传统企业。它们是否也面临着大数据的挑战呢?郑玮的回答是肯定的。像德意志银行、摩根士丹利等金融机构普通采用的风险分析就是大数据的实际应用。
与硬件保持距离
为了满足大数据的需要,数据集成产品本身会不会做出改变?郑玮表示:“回顾信息技术的发展历史,其实每五六年就会出现一次新的技术浪潮。我们时刻关注这些变化,而且走在这种变化的前面。因此,对于Informatica来说,大数据的出现并不意外,这种变化是自然而然发生的。Informatica只用了6个月的时间就开发出支持Hadoop的解决方案。大数据的出现并不会改变Informatica软件开发的底层技术核心。但是,由于数据量的快速增长,资源的调配方式或用户的一些使用方式可能会发生改变。”
对业界流行的软硬件集成的一体化解决方案,Informatica敬而远之。“Informatica只做软件。Informatica将与硬件厂商以及数据仓库厂商进行广泛合作,但自己不会涉足这些领域。”郑玮表示,“未来,我们的产品也不会与硬件或数据仓库产品进行绑定。Informatica将继续保持中立的地位。我们会更加专注,只做与数据集成、数据质量、主数据管理等相关的业务。”
由于产品的特殊性,Informatica将数据集成比喻成一座桥梁,它可以连接硬件、数据仓库、商务智能等产品。郑玮表示,Informatica最大的竞争对手其实是传统的手工处理方式。
一家知名的卡车运输公司采用Informatica Hadoop产品对其半结构化数据进行处理,从而提高了卡车的调配效率。以前,调配一辆卡车至少需要半天时间,而现在只要几分钟而已。
国内一家全球500强企业近日主动找到Informatica,希望借助Informatica的数据集成产品实现知识管理。
处理好非结构化数据
由于非结构化数据量猛增,用户必然面临如何同时处理好结构化数据和非结构化数据的问题,比如什么时候将数据放在传统的数据仓库中,什么时候要用开源的Hadoop处理数据。Informatica能帮助用户在同一个平台上处理结构化和非结构化数据。郑玮认为,处理好结构化数据和非结构化数据的关键是系统能够根据数据类型的不同,自动将结构化的数据分配到能处理结构化数据的系统中,而将非结构化的数据分配到能处理非结构化数据的系统中。
以在能源行业中占据重要地位的石油企业为例。中国石油集团东方地球物理勘探公司研究院数据中心目前就部署了基于英特尔架构的整套端到端的解决方案,依赖英特尔的至强、至强融核、固态盘、高速互联技术,及它们与Lustre、Hadoop等软件的有力结合,石油勘探能效明显提升。东方地球物理公司研究院处理总中心总工程师赖能和在接受本报记者采访时说:“IT技术创新与油气勘探的主要结合点在于地震波勘探法,它可以对人工制造和收集回的地震波进行处理,并将之转化成可视化的油藏模拟图像,帮助准确定位油气田的储藏。这一过程不仅要依赖能精准收集数据的前端传感探测设备,而且其产生的TB级、PB级海量数据,也需要借助高性能计算技术进行快速处理,获取洞察。”
从2011年开始,赖能和团队发现数据量开始快速增长,而且随着采集技术的快速发展,截至目前的数据量比2013年增长了3倍。在谈到HPC下一步在石油行业应用的未来发展趋势时,赖能和总结了以下几点趋势:“一、基于多核CPU+协处理器模式会成为主要的应用平台。二、高速网络,主要是基于万兆、4万兆和10万兆的网络会成为主流。三、存储方面,主要会在高性能、高可用性、可管理性、稳定性这块的挑战会更大。四、数据传输时间方面要求更高。五、绿色机房建设技术,主要是在节能制冷方面会有新技术出现。”而这其中,赖能和认为还需同步解决更高要求HPC的配置问题,需要更加稳定的大规模的并行处理系统。
密度海量数据处理已经成为油气勘探的趋势,大数据成为常态,所以需要更大规模的计算资源。对此,龚毅敏表示:“英特尔在大数据方面已经具备了的解决问题的能力。在此之前英特尔中国研发了自己的大数据分析平台Hadoop的产品IDH,并且在今年年初又与Hadoop的服务和软件供应商Cloudera达成战略合作,并面向中国用户开发推出了针对客户推广了融合版本Hadoop产品CDH。但是结合到具体不同的行业,我们会与合作伙伴一起,针对用户的具体它的应用场景做更多深度合作和技术的合作点的挖掘。”
除此之外,在端到端中新兴的物联网端,英特尔提供了在性能、功耗和功能上具备多样化特点的产品组合,包括了至强、酷睿和凌动产品线,既有传统的处理器,也有集成了更多功能的系统芯片(SoC)。还有去年的以Quark为代表的开放微架构,将有望大大提升能源行业专用智能物联网设备开发和应用的速度。
最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
那么什么是大数据呢?
从目前比较公认的定义上看,大数据从数据量上看,至少也要达到PB级别(1PB=1024TB=1048576GB)。公开资料显示,阿里巴巴集团目前的数据系统之一“云梯”中总存储容量50PB,实际使用容量超过了40PB。百度搜索引擎抓取的数据综合,大概是10-50PB,这个范围很大,因为这个情况是每隔一小时就会发生很大变化。另外其的UGC,也就是用户产生的内容,例如百度贴吧、百度知道、百度文库中的内容,这些内容是广大互联网网民自己产生、自己上传的,大家一起分享的数据,这部分数据目前达到1PB。
归结起来,大数据便是海量的(Volume)、多种类的(Variety)、需要大规模的处理才能够凝聚足够价值的(Value)、处理和检索响应速度快的(Velocity)数据。处理大数据所需要的系统,和传统的数据挖掘工作所需要的系统有根本性区别。同时,大数据时代越发强调数据的关联性,将各种数据之间关联组合,以产生更大的价值。
互联网上的每一个网页、每一张图片、每一封邮件,通信行业每一条短消息、每一通电话,电力行业每一户用电数据等等,这些足迹都以“数据”的形式被记录下来,并以几何量级的速度增长。这就是大数据时代带给我们最直观的冲击。
正因为数据量之大,数据多为非结构化,现有的诸多存储介质和系统极大地限制着大数据的挖掘和发展。为更好地解决大数据存储问题,国内外各大企业和研究机构做了许许多多的尝试和努力,并不断摸索其商业化前景,目前形成了如下两种比较成熟的商业模式:
可扩展的存储解决方案。该存储解决方案可帮助政府、企业对存储的内容进行分类和确定优先级,高效安全地存储到适当存储介质中。而以存储区域网络(SAN)、统一存储、文件整合/网络连接存储(NAS)的传统存储解决方案,无法提供和扩展处理大数据所需要的灵活性。而以Intel、Oracle、华为、中兴等为代表的新一代存储解决方案提供商提供的适用于大、中小企业级的全系存储解决方案,通过标准化IT基础架构、自动化流程和高扩展性,来满足大数据多种应用需求。
云存储是一个以数据存储和管理为核心的云计算系统,其结构模型一般由存储层、基础管理、应用接口和访问层四层组成。通过易于使用的API(应用程序编程接口),方便用户将各种数据放到云存储里面,然后像使用水电一样按用量进行收费。用户不用关心数据的存储介质、网络状况以及安全性的管理,只需按需向提供方购买空间。包括国外的亚马逊、微软,国内的网易、盛大等公司都提供非常成熟的云存储服务。据研究企业MarketsandMarkets公司最新的报告称,全球大数据市场规模将在未来五年内迎来高达26%的年复合增长率――从今年的148.7亿美元增长到2018年的463.4亿美元。
在红红火火的大数据时代,随着数据的累积,数据本身的价值也在不断升值。一些掌握海量有效数据的公司和企业找到了一条行之有效的商业路径:对源数据直接或者经过简单封装销售。在互联网领域,以Facebook、Twitter、微博为代表的社交网站拥有大量的用户和用户关系数据,这些网站正尝试以各种方式对该源数据进行商业化销售,Google、Yahoo!、百度等搜索公司拥有大量的搜索轨迹数据以及网页数据,它们可以通过简单API提供给第三方并从中盈利;在传统行业中,中国联通、中国电信等运营商拥有大量的底层用户资料,可以通过简单地去隐私化,然后进行销售盈利。
数据的变化,从来不是一个循序渐进的过程。随着信息的砰然爆发,谁能合理地分析、管理、挖掘海量数据的内在价值,谁就有可能成为下一个行业巨头。无论从应用、需求还是解决方案层面,大数据都已经到了“应时而生”的时代。
“可以说,这是一场数据的‘工业革命’,数据迎来了量与质的改变,非结构性数据激增,计量单位已从T级升至P级,甚至是E级。”英特尔亚太研发有限公司总经理何京翔在接受本刊记者采访时称,“目前这些数据大部分是‘冷数据’,即采集完成后并没有进行实时分析,没有挖掘其潜在价值。”
包装的艺术
大数据涉及数据采集(存储)、数据传输(网络)、数据处理(计算),而这些恰恰都是英特尔的专长。“Intel Distribution for Hadoop是对传统英特尔平台的优化,然而,对Hadoop(目前最受欢迎的对网络搜索关键词进行内容分类的工具)进行逐一模块式的优化仍然是零散的,需要形成整体的、打包式的解决方案,这就进一步涉及管理。”何京翔解释,“目前仅Hadoop涵盖的20个模块是开源的,仅将开源软件定为企业级应用,其稳定性、可靠性、可维护性都成问题。因此,如何把零散的模块包装起来,形成整体效益,才是英特尔的‘绝活’,换句话说,Hadoop管理才是让‘1+1>2’的核心。”
何京翔表示,英特尔正在利用不同级别的处理器架构、不同的数据应用架构,以及相关的解决方案,帮助用户从端到端找到完整的解决办法。综合解决方案,意味着从芯片到存储,再到网络,最后到软件应用,形成链型优化,其直接效果就是原先4小时的处理时间能够被压缩至7分钟。
英特尔的综合解决方案并非一站式服务,这符合英特尔一贯主推的横向商业模式(Horizontal Model)。何京翔称:“英特尔大数据解决方案的客户都是我们的合作伙伴,我们认为,为不同客户提供不同层次的、灵活、强大和开放式的解决方案,方能真正为企业预留出创造价值和发挥优势的空间,帮助企业解决实际难点。”
群狼与雄狮
目前,英特尔大数据技术主要应用于四大领域:电信、金融、智能交通和医疗。
以电信行业为例,中国用户群庞大,自动产生的数据量大,数据分析是个很现实的问题。“电信公司的客户通讯数据产生的时候是结构化数据,但是数量太庞大,传统的结构化数据分析方式做起来比较吃力,所以现在我们先把它转成非结构化的,输入Hadoop,通过分布式处理,生成并存任务,然后再将结果写回结构化数据,最后我们合作伙伴看到的还是结构化的分析数据。”何京翔比喻说,“这是一个典型的‘一头雄狮子斗不过一群狼’的例子。”
>> 一种基于XML的电子订单安全方案 ESP:大数据时代科学教育整合的一种解决方案 一种面向航天领域的实时数据处理框架研究 一种适合于大数据集处理的混合EM算法 一种面向制造的EBOM构建方案 一种海量数据处理平台的解决方案 一种面向电力在线监测系统的嵌入式数据处理平台设计 一种灵活的WEB数据导出方案 一种基于文件缓冲方式的操作大数据量数据的方法 一种数据稳健光滑的处理方法 一种分布式大数据的数据安全管控策略研究 一种大数据智能分析平台的数据分析方法及实现技术 一种面向媒体网关的平台软件解决方案 一种面向LTE基站的SOC平台软件解决方案 一种面向Web3D的大规模场景实时绘制方案 一种面向就业的计算机专业培养计划改革方案 一种面向商业智能的数据挖掘体系结构的应用研究 大数据:另一种国家核心资源 一种面向医疗机构的数据仓库应用架构 一种面向专利文献数据的文本自动分类方法 常见问题解答 当前所在位置:l, 2014.11.16.
[2]新华网财经频道. 2014年零售百强销售规模同比增长26.2%,天猫居榜首[N]. http:///fortune/2015-07/09/c_1115875315.htm, 2015.7.9.
[3]百度百家. 2015年电商行业五大趋势[N]. http:///article/42503, 2015.1.13.
[4]J. Dean, S. Ghemawat. MapReduce: simplified data processing on large clusters. Communications of the ACM [J], vol.51, no.1, pp.107-113, 2008.
[5]Hadoop. https:///.
7月17日,戴尔公司创始人迈克尔·戴尔宣布,戴尔公司将会专门拨出6000万美元,用于投资存储初创公司。他声称,未来一些伟大的公司会产生在大数据领域,戴尔愿意为发展初期的它们提供帮助。
随着后PC时代的到来,在迈克尔·戴尔的推动之下,戴尔向IT服务转型。戴尔的转型动作越来越大,而此次戴尔在大数据存储方面的举动,不仅有投资基金,近期还收购了相关存储技术公司。
戴尔步步用心地布局大数据领域的同时,惠普、甲骨文、EMC等企业早已入局。据IDC预测,到2020年全球数据量将达到35ZB(1ZB等于一万亿GB字节),这意味着当下即将进入大数据的时代,数据量急速攀升,加上云计算正成为厂商们争夺商业价值的关键节点,大数据领域竞争加剧。
大数据助戴尔转型
戴尔的转型慢于IBM公司,但是比惠普公司坚定。当戴尔离PC老大的位置越来越远时,戴尔转向了企业服务业务。如今随着大数据领域日益受关注,戴尔借助大数据业务抢占市场,助力企业转型。
随着PC业务在全球日渐式微,戴尔的转型越来越迫切。在其公司创始人迈克尔·戴尔的全力推动之下,2007年戴尔开始向IT服务业转型。根据戴尔2012年财报显示,其企业级解决方案和服务的营收达到186亿美元,占总营收的比重已由启动转型时的23%,上升到了30%。而且戴尔称,企业级服务业务为公司贡献超过50%的利润。这些数据表明戴尔的转型取得了初步成功。
然而戴尔进入IT服务业的时间并不算早,在整个IT服务领域,相对于IBM,戴尔发力较晚。当大数据出现后,众多厂商都对大数据表示了极大的兴趣并且蠢蠢欲动时,戴尔却在此方面几乎没有举动,再次落后。正当行业开始怀疑戴尔要错过大数据的时机时,2010年8月,戴尔通过与Cloudera合作推出支持后者Hadoop部署的参考架构和硬件,开始涉足大数据领域。
而此次戴尔用6000万美元投资存储初创公司,更是表明其在大数据领域的决心。戴尔投资总经理吉姆·卢西尔表示,“作为对戴尔并购、研发、合作伙伴的战略补充,戴尔投资开拓另一条创新、利润潜在增长的大路。戴尔投资致力于早期增长阶段投资,围绕一些战略领域进行,包括存储、分析、BI大数据、终端用户计算等。”
戴尔这笔基金,会向5-10家存储创业型公司分别投资300万-500万美元。迈克尔·戴尔指出,大数据是当前的热点业务类别,是新兴创业公司面临的“庞大的机会”,也是戴尔公司的一个“巨大业务领域”。戴尔不是关注纯粹的存储,而是帮助企业(特别是职员少于1万人的企业)访问和使用实时的已存储“大量数据”。
就目前而言,这仅仅是个开始,面对着未来可能出现的数百亿美元的市场,此次戴尔的千万基金,并不是它的唯一一项行动。有分析指出,戴尔从初创公司入手,剑指整体大数据业务的布局。
并购加速
由于是大数据领域的后来者,戴尔在此领域的举动更多的是通过收购来完成,而这是缩短与IBM、甲骨文等厂商之间差距的最快途径。
目前戴尔更关注大数据分析存储方面,将他们的存储平台和数据库捆绑在一起用于大数据保留。在今年的戴尔全新存储产品活动上,戴尔推出了流动数据架构以解决大数据时代的难题,该解决方案集成了戴尔多个文件存储平台,为客户提供一个公用的企业级分布式文件系统。
对此,戴尔企业存储副总裁兼总经理汤玛斯表示,“这是为了采集和储存所有的相关数据,从大数据分析设置中驱动商业智能价值,使人们有可能获得支持创新和商业价值的见解。”而戴尔能迅速在大数据领域有所作为,与其采取的收购方式有着紧密联系。
自戴尔进入大数据领域后,其完成了几次关键的收购,初步完成了对大数据领域的布局。2011年2月,戴尔收购了康贝存储技术公司。数据存储服务供应商康贝为企业和云计算环境提供高度虚拟化的存储解决方案,该解决方案提供自动数据管理功能。而完成此次收购的5个月后,戴尔收购了一家数据中心网络解决方案公司。有分析认为,戴尔的此项收购完善了其下一代数据中心以及智能化数据管理的需求,提升了戴尔在企业数据中心市场的影响力,率先占领市场优势。
此后戴尔的收购应接不暇。今年戴尔就已收购了相关数据备份厂商和网络安全公司。戴尔计划在2016财年以前,使数据中心产品和技术对营收的贡献达到275亿美元,较此前提高45%。
硝烟弥漫
大数据概念自麦肯锡的一份研究报告提出后,被业界广泛关注。
据IDC的全球大数据技术和服务预测数据显示,该市场预计将从2010年的32亿美元增长至2015年的169亿美元。基于对大数据市场数百亿美元的认识,全球领先的IT企业们已经把注意力转向大数据,并提到战略高度,大数据潜在的价值正在被不断挖掘,进而形成企业的新的利润来源。
对于未来的这个数百亿美元的市场,EMC董事长、总裁兼首席执行官乔·图斯认为,“大数据时代已经到来。它已不仅停留于概念,社会各界对大数据都有需求,大数据中将产生巨大的商业价值。”微软亚太研发集团首席技术官孙博凯表达了类似的看法,“大数据不仅仅是技术,事实上是通过数据管理获得新的洞察力。如今大数据已成为企业的竞争力,而应用解决方案意味着大商机。”
基于此认识,众多IT巨头都已在大数据领域布局。而戴尔迅速且强势地进入,则加剧了大数据领域的竞争。而与戴尔进军方式大体相同的是,IBM、EMC、惠普等都围绕着大数据进行并购,并取得一定成绩。
形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球垒到月球一个来回(单程约24万英里)。
在信息化的建设过程中,众所周知,数据可以分为3种:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于企业业务过程中产生的文档等非结构化数据。
面对着海量的数据,人们不禁感叹,大数据时代已经到来,悲观者深为管理和维护而忧虑,乐观者则看到了大数据的大价值。何谓“大数据”,目前没有统一的定义。通常认为,它是海量的非结构化数据,其特点是数据量很大,数据的形式多样化。如何存储这些快速增长的、海量的数据?如何对大数据进行分析处理,挖掘出价值?相关的一系列问题成为了业界面临的共同挑战。
大数据时代的挑战与目标
大数据时代的挑战包括:如何实现高效、智能的大数据存储?非结构化数据正在呈海量增长趋势,如何对其进行有效的数据管理和应用?现有数据保护与文档归档机制能否应对日益增长的海量数据?如何攻克移动数据管理的难点问题?如何在复杂的数据环境下实现高效的数据安全?如此种种问题,逐渐成为了所有CIO的共同挑战。
但是我们发现,对于这些大数据的挑战,其实归纳起来就只有两个目标:
管理好大数据:从大数据的产生、存储、保护、归档到安全维护的各个角度,从根本上而言,这是IT管理维护的范畴,只不过数据量超出常规管理尺度后,对于管理维护的难度出现了跳跃式上升的态势;
使用好大数据:这是企业管理的最终目标,大数据即意味着大价值,数据与数据、数据与人、数据与业务的关联性。这个挑战既有流动性、关联性、智能的应用挑战,也有基于大数据深度挖掘的挑战。
但是,这两个目标之间也是不可分离、相辅相成的关系。管理和维护的目的是使用,使用的基础是好的管理维护。
云计算与大数据是时代的交集
为了解决大数据的挑战,人们自然而然地想起了云计算,云计算遭遇大数据,这是时代的发展必然趋势。云计算技术可以实现IT资源的自动化管理和配置,降低IT管理的复杂性,提高资源利用效率。对企业来说,云计算的主要形态是私有云,其主要的业务由私有云支撑,而非关键的业务或者突发性的业务可以采用公共云资源。私有云与公共云需要无缝连接,从而形成混合云的环境。
大数据意味着大资源,这是云计算与大数据的交集,其实也就是意味着,云计算与大数据的关系是两个方向,云计算可以承载大数据,大数据也是可以通过云计算架构和模型来提供解决方案。这样我们就可以清晰地知道,大数据在管理和应用的方向上,可以通过云计算的资源共享、高可扩展性、服务特性来搭建和运营。
大数据的大内涵
如果说大数据与云计算的交集是外部交集,那么大数据内部的关联、挖掘,则是大数据的大内涵,这个调整远远超过云计算的应用难度,数据与数据的复杂关系,比如跨应用系统的结构化数据与非结构化数据的关联;海量数据的存储以及数据在人之间的分享;数据(结构化与非结构化)与业务和决策间的关联。
要解决这个问题的一个思路是EMC提出的信息生命周期思想,但是在很多业界同行看来,这个思想在云计算和大数据时代需要真正的升华,而这个方向就是智能,不是单一和局部的,而是统一的智能。IBM提出了智慧的地球,作为国内崛起的新兴代表爱数则提出了智能数据管理解决方案,也是基于统一智能和信息生命周期思想的框架。
无疑,这是一种新的思路。据爱数相关负责人透露,这种统一的框架采用云计算体系结构,主要技术突破在资源池化和法规管理遵从,从数据生成阶段就将大数据纳入到生命周期管理中,通过统一的智能策略,既提供了很好的运维和保护,也能在使用和挖掘阶段与业务应用结合起来,提供统一的数据信息平台。
数据之道,智取未来
那么,什么是下一代分析生态系统?按照记者的理解,就是结合了商业技术、开源技术的多平台的新一代大数据解决方案。正如Teradata首席技术官宝立明所言,数据分析解决方案正在快速从传统分析解决方案向下一代分析生态系统演进。
谈到数据库或者数据分析市场的变化,在Teradata营销与业务拓展副总裁Mikael Bisgaard-Bohr回顾说,30年前Teradata的核心技术是关系型数据库,随着时间的推移,数据分析市场的需求也起了很大的变化,我们的解决方案也从传统数据仓库扩展至包含开源技术的分析生态系统。现在很多研发人员、数据分析人员也关注如何更好地实现数据变现。“不仅Teradata,其他的传统数据公司都在面临同样的变化,因为整个市场已经发生了变化。”Mikael补充说。
随着非结构化数据量的大幅增加和非结构化数据分析的需求不断加大,单一平台早已经不再能满足所有数据的处理需求。因此宝立明认为,生态系统将成为行业潮流,商业技术要与开源技术结合起来,生态系统方案将成为行业标准和最佳实践;全新的开源技术,特别是Hadoop技术,以及云环境将成为行业趋势。
因此对于大数据分析和应用供应商来说,如何更好地将商业技术与开源技术结合起来,构建完善的生态系统,成为现阶段的一大挑战。
宝立明透露,Teradata算是最早宣布将开源Unix和Linux应用在数据库平台之上的,而且现在Teradata采用的操作系统也是完全开源的。此外,他还透露,Teradata在Hadoop上投入很大,为的是让开源技术可以和商业技术实现互通,例如Teradata开发的专利技术QueryGrid连接器。Teradata还在Hadoop文件系统上添加了仪表盘能力,使流数据能够进入Hadoop进行部署。
“现在不是有多少客户提出需求的问题,而是很多用户都已经实际部署了大数据平台或应用。”一位国内数据库厂商的市场负责人指着该公司新制作的一本案例集告诉记者,“这本案例集中列举的客户都已经采用或已经测试了我们的新型数据库,用来解决大数据应用的问题,包括政府、金融、电力、税务等行业的客户。”
在此之前,记者也与一位国外的市场分析师进行过沟通,她表示中国的大数据应用只是刚刚开始,远远没有达到普及应用的阶段。数据科学家等人才的缺乏,也是制约大数据应用的重要因素。
与云计算一样,大数据从诞生那天开始就一直存在争论,体现在概念、技术、实现方式、商业模式等诸多方面。不过可以肯定的一点是,大数据与云计算都已经是不可逆转的趋势。
大数据是现实需求
为了进一步了解中国用户对大数据的接受程度以及目前的应用状况,《中国计算机报》利用“第三届计算技术大会”举办之机,选定一部分参会的行业客户进行了一次有关大数据应用情况的问卷调查。本次调查共发放了问卷320份,收回的有效问卷308份。从调查结果看,大部分的用户通过多年的信息化建设积累了大量数据,处理TB级甚至PB级的数据量对他们来说确实是一个难题。但是,对于是否现在就采用大数据的工具,用户基本分成了两派:一派对大数据持积极拥抱的态度,已经开始尝试或有计划采用相关的大数据解决方案;但另一派用户在未来12个月没有上马大数据项目的需求。
从调查结果看(如图1),58.8%的被调查者表示,其当前的数据量已经达到了TB级,另有16.8%的用户的数据量甚至达到了PB级。将近80%的用户数据量已经达到TB级以上,这从一个角度证明了在过去几年中数据的爆炸性增长是一个事实。
有人曾经提出过这样的问题:我们每年为企业信息化建设投入了那么多资金,最后我们得到的是什么?当然是数据。以前是集中存放在数据中心里的数据,而现在除了数据中心,还有更多的数据来自于各种各样的移动智能终端以及大量的企业分支机构。这些数据在相当长的时间内是保持“沉默”的,有人说它们是沉睡的宝藏,但也有的人说它们是一种负担。其实在大数据的概念出现前,人们已经开始用“海量”这个词来形容数据,这也是大数据“4V”特征中一个最明显的特征。但是由于技术的限制,人们不可能实时地处理和分析这些数据,用一个高效的存储平台将这些数据保存好已经占用了用户的绝大部分精力,而进一步挖掘数据的价值在以前是可遇而不可求的。
除了数据量大这个难题以外,数据类型越来越复杂也是用户以前无法很好地处理和加工数据的一个原因。调查显示(如图2),60.5%的用户反映,其现有的数据是结构化与非结构化数据兼而有之。以前,大家习惯了用数据库来处理结构化的数据,而非结构化数据的快速增长让用户在选择新型存储和分析工具时捉襟见肘。从技术的角度看,使用一个能够同时处理结构化和非结化数据的统一存储和分析平台可以一劳永逸。
现在一提到大数据,很多人首先想到的就是那些分析软件和工具。从我们的调查结果看,79%的用户表示更关心分析软件和工具,这也证明了这一点。不过,61.3%的用户表示会更关注存储架构,还有37.8%的用户表示会在计算平台上下更多功夫。计算、存储与分析对于大数据来说是密不可分的三个重要组成部分。
其实,就像经济基础与上层建筑一样,分析软件好比是上层建筑,存储则是经济基础,如果没有一个坚实稳固而且高效安全的存储平台,就不可能将真实、准确的数据提供给大数据分析工具进行再加工和处理。从厂商提供的大数据解决方案来看,大多数走的还是融合的道路,就是将存储平台与大数据分析工具进行整合,为用户提供一个整合的甚至是一体化的大数据解决方案,比如华为近期就与国内数据库厂商共同推出了大数据一体机产品,包括惠普、Oracle等在内的许多国外厂商也早就了大数据一体机。
由浅入深 不要急功近利
无论是云计算还是大数据,目前都已基本度过了概念辨析的阶段,开始步入应用阶段。虽然关于大数据的定义业内还存在争论,不过这并不会影响大数据的落地。像电信、金融、互联网等领域的用户早就开始对大数据解决方案进行测试,一些先行者已经将大数据工具用于业务,对数据进行重新梳理、分析和挖掘,为企业决策提供依据,或为业务拓展、提升客户忠诚度提供帮助。
我们的调查数据显示(如图3),57.1%的用户表示,在未来12个月内暂无部署大数据应用的计划。这一结果与我们之前预想的差不多。通过与行业用户的广泛接触,我们认为大数据目前还处于应用的初级阶段,很多用户虽然在关注大数据的技术以及行业应用进展,但是对于现在就部署大数据方案还比较谨慎。一方面他们还没有完全搞清大数据对于他们的业务发展来说到底意味着什么,能带来什么样的好处;另一方面,很多用户还忙于信息化应用的部署或底层基础架构的优化,没有精力去考虑大数据的应用。说到底,对于很多用户来说,大数据目前还属于可选顶而非必选项。只有那些业务与大数据之间关系十分密切,甚至只有通过大数据才能挖掘新的客户,铺设新渠道的客户,才会现在就转向大数据。
调查数据显示,42.9%的被访者表示计划在未来12个月内部署大数据解决方案,这一结果其实超出了我们之前的预想。我们在调查前曾乐观地估计有计划实施大数据的行业用户最多也就有30%。调查结果显示,中国用户确实对大数据有现实的需求,他们可能会选择某一个与大数据紧密相关的点切入,然后再逐步进行更大范围的应用。很多中国用户对新技术、新趋势的追求其实并不比国外用户差,关键是如何将新技术与企业自身业务的发展相结合,让用户实实在在地感受到新技术带来的业务成果,这样才能更有效地利用技术创新去推动业务创新。
谈到企业实施大数据项目的预算情况,预计投入资金超过500万元的用户只占被访问者总数的12.6%,其余用户的投入都在500万元以下,其中39.9%的用户用于大数据项目的投资低于50万元。这一调查结果(如图4)反映出大部分用户对大数据项目的投资比较谨慎,在大数据应用还没有在各行业广泛铺开,而企业本身又确实有需求的情况下,用户愿意小规模地进行投入,尝试性地部署大数据应用,既不影响企业现有的业务,又可以进行有益的尝试。
有些行业用户之前可能在大数据方面已经有过一些尝试,比如使用了BI(商业智能)工具。BI与大数据之间的界限究竟在哪里,新的大数据系统是否可以和原有的BI系统兼容甚至运行在同一个平台之上?如果用户心中的这些疑虑不消除,那么大数据应用普及的速度就会减慢,甚至遭遇挫折。华为企业业务集团医疗行业系统架构师温长城告诉记者:“目前在医疗行业,大数据主要应用于区域卫生医疗。我们接触的用户基本上会在原有系统之外单独构建一个大数据平台。”
大数据的应用也是分阶段的,用户不要急于求成。任何一项新技术从诞生到逐渐走向成熟,再到最后实现大规模应用,必然经历一个过程。新技术从诞生到趋于成熟,中间其实并不是一条陡峭的曲线,而是有一个相对平稳发展的过程,有时这个阶段可能会比较长。但是的确有一些厂商和用户总希望新技术一出现,就能马上开花结果。这种急功近利的心态不利于大数据应用的推广。我们的调查显示(如图5),63.9%的用户表示,他们目前还处于大数据的调研和测试阶段,28.6%的用户目前正努力建设一个大数据基础构架平台,2.5%的用户目前正在进行大数据分析软件的选型,7.6%的用户已经将大数据应用于业务之中。由此可见,大部分用户目前还处于大数据分析的准备阶段,对相关产品进行评估以及打造一个大数据的基础平台是用户当前最关注的工作。我们建议用户一方面要积极地关注大数据技术与应用的发展,但同时又要脚踏实地,不要期望“一夜之间建成罗马”。
需要一个高效存储平台
大数据到底能够解决企业业务的什么问题,带来哪些实实在在的好处呢?大数据与云计算落地面临同样的问题,那就是如何找到技术与业务的契合点,如果找不到或找不准这个契合点,那么大数据落地将是无米之炊、空中楼阁。越来越多的厂商也注意到了这个问题,在讲解大数据的技术与应用时,非常注意与行业以及应用相结合,并且将大数据的应用划分成一些典型的应用场景,让用户可以对号入座,找到自己的切入点。
在调查中,我们归纳了一些大数据的典型应用场景,用户的选择比较平均,将大数据用于整合企业内部数据,为领导决策提供依据的占55.5%,将大数据用于整合内部与外部(客户)数据,实现360度客户视图的占52.9%,利用运营分析实现运营优化占52.1%,利用数据仓库实现IT效率和规模效益提升的占44.5%。由此看来,用户最迫切的需求还是利用大数据工具对自身业务流程进行梳理和优化,同进促进业务的发展,获得更高的收益以及提升客户满意度。也正是由于大数据能够与业务相匹配,解决企业业务发展中遇到的一些瓶颈,用户才对大数据表现出一种积极与热情。调查数据还显示,16.8%的行业用户正在利用大数据提升企业的安全性,防范犯罪。在金融领域,这种应用正变得越来越普遍。
还有8%的用户选择了“其他”,这其实是我们最愿意看到的一个结果。用户是一切技术变革的推动者,也最善于利用新技术实现应用的创新。我们希望看到大数据在各个行业以及各种应用场景中发挥其独特的价值,形成有行业和企业特色的应用模式,并得到复制,在更广的范围内得到普及和应用。作为媒体,我们也会尽自己所能,尽力去挖掘这些大数据的新型应用,这也是我们在调查之后会着手进行的一项工作。
上文已经提到,如果想充分发挥大数据分析工具的作用,就必须先建立一个高效的统一存储平台,正所谓磨刀不误砍柴功。那么用户是如何评价存储在大数据中的地位呢?用户希望构建一个什么样的大数据存储平台呢?从我们的调查数据看(如图6),最多的人(70.6%)选择了希望建立一个融存储、归档、分析于一体的统一的存储平台;48.7%用户表示,希望在同一平台上处理结构化和非结构化数据。面对海量的数据、复杂的数据类型时,最需要一个整合的平台,统一处理不同类型的数据,这样既可以方便、快捷地进行部署应用,又可以简化管理,鱼与熊掌兼得。
具体到一个大数据存储平台,用户的关注点主要集中在性能和成本两方面。50.4%的用户表示,在非常关注大数据存储平台性能的同时,也希望大数据存储平台具有一个好的性价比。大数据除了量大、数据类型多等特征以外,实时处理也是大数据一个非常重要的特征,同时也是大数据区别于传统离线数据分析的一个显著特征。在很多情况下,只有实时分析的结果才会让用户受益。比如,你去逛商店时,如果能实时收到商店里的各种打折和促销信息,那么你一定会不虚此行。再比如,如果一项室外的体育赛事,如果能收到实时的天气预报,就可以更好地安排比赛。大数据存储平台的一个核心特征就是高效,一方面是高性能,另一方面是低延迟。存储硬件厂商都是在朝这样的目标努力,比如闪存被越来越多地用于存储平台,就是为了更好地实现上述目标。
相信大家都还记得2013年5月10日淘宝十周年晚会上,阿里巴巴集团董事局主席马云在其卸任集团CEO职位的演讲中说到:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”
什么是大数据?
早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。
随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。
而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。
2 大数据应用的现状分析
最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?
一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。
Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。
果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。
利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。
随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。
事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。
目前典型的大数据应用领域有:
商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。
公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。
政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。
3 大数据解决方案的现状分析
以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。
虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长 ,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。
于是革命爆发了!
哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。
驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。
IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:
2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。
这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。
于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。
怎么办?
很多人立即想到了另外一个热词:“云计算”。
IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。
EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。
然而事实真的如此吗?
让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:
面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。
IBM给出的解决方案是:
首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。
其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。
而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性, 能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。
总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。
可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。
4 结束语
大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,海量的数据需要足够存储来容纳它,快速、低廉、绿色的数据中心将成为这一切的关键。
然而大数据并不意味着整合的、集中式的服务器架构已走向了末路,相反,大数据所带来的规模效应,使得我们越来越需要更加高效可靠的大型整合的混合负载服务器,巧妙地整合和适当的集中,将成为大数据解决方案里重要的一种思想和方向,特别是针对关键行业的核心数据,高安全、高可靠、高稳定将始终是使用者的首要考虑。
参考文献:
[1] 维克托·迈尔-舍尔维恩,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.
增强控制力
“很多用户的数据保护架构还是一个‘随意架构’,它由零散的数据保护流程和‘烟囱式’的基础架构组成,需要保护的数据被信息孤岛隔裂开,不能实现整合与优化。”EMC公司备份和恢复系统部亚太及日本区销售副总裁Dmitri Chen解释说,“面对虚拟化、云计算、大数据带来的新挑战,企业用户希望数据保护系统是可视化的和可控的,数据保护流程能够更简单,整个数据保护过程都是合规的。其中最重要的是,用户自己要对数据保护架构有绝对的控制能力,可以根据自己的需求进行调整、优化和修补。”
为了消除现有数据保护架构的随意性,增强用户对数据保护架构的控制力,EMC近期升级了自己的数据保护解决方案,包括硬件和软件以及云备份服务。Dmitri Chen强调说,为了改善数据保护架构,应该从以下三方面入手。第一,保证存储硬件平台的高性能、高可扩展性和高可靠性。作为最后一道防线,数据保护架构不仅要提供大容量、低成本的存储,还要能实现灾难恢复、备份和归档等功能。第二,实现数据源的集成,不仅可以对物理环境和虚拟环境中的数据进行统一保护,而且可以为来自不同应用程序(比如Oracle、SAP以及VMware、Microsoft等)中的数据提供保护。EMC扩展了备份和归档产品对应用程序的支持,比如EMC Data Domain现在可以支持SAP HANA Studio通过网络文件系统(NFS)直接进行备份。第三,实现数据管理服务。管理员可以对数据保护流程进行管理和控制,实现可视化。实现数据管理服务的依托是备份、重复数据删除等相关软件。
软硬件的整合
“随着数据量的增加,以及用户对数据可靠性、可用性、安全性需求的增加,略显单薄的传统备份产品已经逐渐发展成整体的数据保护解决方案。”Dmitri Chen表示,“软件与硬件的同步发展以及整合方案的推出,可以全面满足用户对数据保护的需求。”
EMC近日的数据保护产品中就包括大量硬件和软件。其中,硬件是全新的Data Domain系列中端产品,包括DD2500、DD4200、DD4500和DD7200。“这些新产品与它们要替换的旧产品相比,性能提升4倍,可扩展能力增强10倍,并且可以实现备份与归档的全面整合,从而降低了数据保护的整体拥有成本。”Dmitri Chen介绍说。
等领域用户纷纷将IT投资着眼于大数据,但这些大数据距离其理想应用,还必须经历一段复杂艰难的历程,包括技术及非技术等诸多挑战摆在企业CEO们面前。
可以看到,基于大数据相关的诸如数据库、数据仓库、数据分析、数据挖掘及BI等技术领域,厂商均推出了丰富的产品及解决方案。当前,从数据平台级厂商到应用软件厂商IBM、SAP、Oracle、微软、EMC等等,均不遗余力推进各自的“大数据战略”。
据本刊记者调查,目前各大银行数据库平台主要由IBM(主机以DB2为主)、Oracle(UNIX平台)所占据,其他数据库平台则由SAP (Sybase)、SQL Server、Informix等组成。从而在传统事务型应用与分析型数据库而形成分水岭。随着新的个性化需求的不断涌现,围绕大数据而展开的业务应用正在逐步改写数据库市场原有格局。
技术战略全面化
市场变化对厂商战略直接产生影响。Oracle对大数据的策略是面对从底层大数据到顶层的BI数据,可处理传统的中间层次的关系型数据库和下层的大数据库。Oracle大数据的产品及集成解决方案通过软硬件的解决方式提供软件及硬件,网络交换,提供大数据的获取、组织、分析、决策四个步骤的所有能力,包括Oracle大数据机和Exalytics商务智能云服务器。
伴随着交易型IT过渡到交互型IT,企业数据出现了爆炸性增长。社交媒体的兴起、数字传感器的大量应用以及移动设备的大面积普及等因素导致各种海量数据快速产生。此类多为结构化的数据,价值较低,但庞大的数据量却蕴含着巨大财富。
甲骨文副总裁及大中华区技术总经理喻思成分析,大数据不仅要求传统交易型的数据分析,还把现在的社交媒体、电子商务、决策支持等所有的信息都融入进来,把原来后端的BI变成了大数据的前景。
EMC面向云计算数据库云平台Greenplum,推出的统一分析平台—UAP当中,除了大数据软件平台外,另一核心是优秀的数据科学家团队,通过他们利用Greenplum的技术提升利用大数据建模及分析的能力。
今年是专注于应用层的SAP D&T(数据库及技术平台部)展开其数据库业务的第一年。在并购Sybase两[ uuubuy.com]年期间ASA SAP支持ERP等相关技术整合花了一定时间之后,在ERP应用层SAP将逐步在未来时间引入自己的数据库并优化支撑应用。SAP在关键数据库已拥有行列式、内存计算(HANA)、移动及数据流分析等五大数据库产品。
当EPR数据库发生变化时,它将影响整个数据库市场的变化。当在制造业占第一位的ERP厂商换了底层数据库,经过若干年之后,其变化及影响力将是深远的。
同时,SAP还坚持做开放的平台数据库。IBM、微软、Oracle都销售的是平台级的数据库,用户采购后自己去作应用开发。而ERP数据库软件相对封闭,而做开放的ERP数据库平台技术开发难度更高。这也是SAP会有列式、内存、移动嵌入式数据库的原因。
商业竞争在分析
大型银行完成数据大集中,四大银行构建了大规模数据中心,由此产生的庞大的数据量及类型繁多的数据平台,以及对数据处理高速度及高价值等要求,使得大数据在银行业的应用越来越广泛,复杂化需求也不断升级。
记者采访调查发现,在其他诸如运营商、电商等领域,中国行业用户在数据方面所面临的挑战远比国外用户大。这也是大数据之所以风起云涌的外在推力。
在中国运营商市场仅终端用户总数量超过13亿,尤其是中国移动终端设备的普及,手机用户庞大的活动量(电话、短信,移动互联之微博、看网页、玩游戏等)这些应用需求更对大数据提出了巨大挑战。而相似需求在移动互联领域更为突出。这正是用户迫切需要借用“数据分析”“通道”来获得竞争优势的主要原因所在。
“从数据量、处理速度角度看,大数据做交易类难度并不高,除非在银行业上百万用户并发等极端的股票交易类型外,更多在大数据框架内用户心理及行为分析等大数据量分析外,及时性处理速度在大数据领域非常重要。时时营销、时时风险控制、时时监测、时时报警、时时推荐、时时基于地点的促销等等,在这一点上是各家数据库厂商竞争的焦点。” SAP全球数据库解决方案亚太及日本区技术总监卢东明说。
数据库作为大数据的关键环节,眼下的市场激战在数据库平台业务领域愈演愈烈。SAP的HANA和Oracle的E xalytics打得火热。 基于大数据的新型商业模式也在展开;基于应用层涌现出诸多国内知名专业服务商,并在竞争中显出亮点。如在数据平台业务上,IBM及其合作伙伴先进数通等占有份量,数据仓库中宇易诚、东华软件等为人们所熟知。华胜天成最近推出了针对性的产品“i”维数据,旨在关注非结构化数据价值, 实现大数据时代下的数据全
生命周期管理。目前这个产品已经在一些大型行业用户中使用, 如邮政业等。
EMC在Hadoop方面已显出其优势,并在电商领域得到广泛应用。阿里平台率先引用相关技术。另据了解,中信银行借Greenplum(数据分析)可做到秒级营销并籍此一年节省千万资金。
客户数据营销战略化
一切根源于由海量数据所带来的高价值。传统的语音和短信等传统业务趋于饱和,运营商投资强化提高客户服务体验,将实现精准化营销和精细化运营提升到战略层面。
如何真正实现精准化营销和精细化运营?就是最大化地利用历史和每天时时不断产生的数据。即海量话单、信令数据、网管数据等一系列关于客户上网行为的数据。
在SAP所支撑的几大运营商的“信令分析”应用中,它不光分析短信或者电话的计费完成等,它分析的是一个电话从发起(从哪个基站发起)、连接信号质量如何及该基站是否连通及如何到达;这个电话有无数个信令等,在大量的信令中作分析。更深刻的分析是想通过数据去挖掘客户价值,这些信令里可反映很多用户的价值。电信行业的信令分析就聚集于用户行为,挖掘商业价值。 “通过充分及时地对这些数据进行深度分析挖掘,不仅可进一步提升客户服务体验,提高客户忠诚度,挖掘新商机,增加收入,同时可通过优化资源配置,提升运营效率,有效降低运营成本,并且可以不断以自身为中心加强对产业链的拓展。” EMC大数据计算产品部大中华区总经理刘伟光说。
除了传统的电信和金融行业,公安和科研机构的大数据应用同样迫切。公安网络监管技术侦察均面临海量信息高速处理的技术难题。在互联网的普及推动下,一个发达城市网络监管系统管理的信息以每天几亿个链接数量在增加,即每天几十个TB的数据在增长,而快速的监控和定位是核心需求。利用新的技术,科研机构把浩如烟海的历史研究数据作挖掘分析,通过先进的建模技术与高性能分析平台的结合,解决科研工作中的难题。
总之大数据对市场占有率、成本控制、投入回报率和用户体验都会起到极大的促进作用。据估计,如果零售商能够充分发挥大数据的优势,其[ uuubuy.com]营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%~1%的增长幅度。
“在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。”华胜天成市场总监唐北雁说。
实现可信可用
正如大家所认同的,数据已是企业竞争优势的资源池。谁能够拥有数据,并从中提取更多的价值,才能在未来的竞争中立于不败之地。
而今,数据分析应用已然成为大型行业客户的普遍需求。明显看到,大数据的出现推动了BI的发展。某专业人士分析,BI与大数据的区别在于,大数据能够基于BI工具进行大容量数据和非机构化数据进行处理,与传统基于事务的数据仓库系统相比较,大数据分析不仅关注结构化的历史数据,它们更倾向去对Web、社交网络、RFID传感器等非结构化海量数据进行分析,大数据无疑是对BI的一个完美补充。
SAP卢东明说:“除了简单的统计报表的分析外(BI已然普及),新型的动态随机的分析正在兴起;而更高的台阶的预测性趋势的分析等高端的分析将是最大的考验,考验不仅仅在技术层面。”
“大数据平台还应该易于使用与管理。”微软中国SQL Server产品营销经理郝雪莹说。大数据平台需要支持及管理外,还需要对企业数据能够使用大管理与分析大规模、不同类型、高频度的多种数据,同时也需要支持对这些数据挖掘与分析,从而为数据的使用者提供全面的、可信的分析结果。一个好的大数据平台应该充分支持这些需求,满足在不同的应用环境,无论是公有云、私有云还是传统应用的环境下,都提供相应的完善的解决方案,同时应该能够支持使用熟悉的前端管理与分析工具,对大数据环境下的数据进行整理、分析与展现。
“随着大数据2.0时代的到来,越来越多的企业将拥有从海量数据中获取数据价值的能力。尤其在数据体量巨大的中国市场,除了传统的金融、电信、政府等行业以外,零售、医疗、中型电商等都会从大数据分析中获益。”Actian公司CEO Steve Shine如是说。
根据Gartner的预测,如果能实现对企业范围内全部未开发数据的充分利用,将带来150亿美元的潜在商业机会。但目前除了极少数企业可以利用大数据分析开展业务、辅助商业决策外,大多数企业还在大数据的门外徘徊。阻碍这些企业应用数据分析的原因是获取有价值数据的成本过高。
是否有降低成本的方法呢?Actian中国区总经理程小龙告诉记者,帮助企业以简单的方法连接数据、增强分析平台的可扩展能力是解决这一问题的关键。“企业要找到一种简单的方式连接不同的数据系统,而不必关注数据是否来自云或其他地方。在连接上数据系统之后,企业还要有处理和分析越来越多数据的能力。分析平台只有具备横向和纵向弹性扩展的能力,才能保证实现秒级的快速分析和查询,才能提升企业应用大数据分析的成本效益。”程小龙指出。
大数据2.0的目标是打破大数据分析转换为价值的技术壁垒。Actian破局的方法是:通过对底层技术架构的改进,使数据更容易获取、使用和实施。首先,Actian的分析平台可以高速连接任何数据源,整合、转换和分析数据,还能在不断扩展的数据集上按需进行预测分析。即使企业的数据分析平台并未架构在Hadoop之上,整合、转换、分析数据的能力也不会受到影响。其次,Actian提供的是一种高性能的引擎,可以对并行执行的分析过程的每一步进行细致设计,并随企业业务发展的需求变化。这意味着各种规模的企业都可以利用数据来驱动业务创新。
在选择大数据解决方案时,Actian认为企业应该以一种新的视角看待大数据,才能实现以数据驱动商业价值的目标。程小龙建议企业应关注三点:第一,企业必须考虑解决方案是否能帮助他们将不同数据源集成在一起,并判别数据的质量和清洁度;第二,解决方案要在数据量不断增加的情况下依然保证高速、易用;第三,也是最重要的一点,即该解决方案能否让企业获得商业洞察力,获得大数据的商业价值。