前言:我们精心挑选了数篇优质数据分析解决方案文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
关键词:工业自动化;PLC;人机界面;数据库
1工艺流程及主要测控点
目前,油田配注系统普遍采用“集中配置,分散注入”的工艺流程,即一个配置站对应多个注入站。其过程是在配置站将化学药剂与清水按照一定比例混合,制成符合浓度要求的母液,母液经过熟化后,由外输泵输送至各个注入站,在注入站按照每口井的配比方案加入清水,然后,注入井下。注入站工艺流程为:上游配置站输送来的母液进入母液储罐,经柱塞泵增压后被输送到母液汇管中,再经过单井母液调节阀进入混合器。注水站来的清水经过单井清水调节器进入混合器,在这里与母液充分混合后被注入井下。注入站的测控参数主要包括母液储罐液位、柱塞泵进出口压力、单井压力、单井清水流量等。
2基本原理
采用“VBA+数据库”的方案实现报表查询。VBA(VisualBasicforApplication)是新一代标准宏语言,是基于VisualBasicforWindows发展而来的,语言简单易学,功能强大。VBA是VB的应用程序版本,必须依赖于已有的应用程序,不能独立运行。目前,WIinCC、FactoryTalkViewStudio、Ifix等主流组态软件都支持VBA编程。具体过程是利用组态软件SE的数据记录功能建立数据记录模型,将需要的数据采集并存储在ODBC指定的数据库中。当操作员查询报表时,选择日期后,按下查询按钮,即执行VBA代码,将数据库中的数据读出来,并写入报表模板中,生成指定日期的生产数据报表。
3报表开发过程
3.1添加HMI标签
展开HMI服务器的“HMI标签”,右键点击“标签”,点击“打开”,在打开的标签窗口中点击“新建”,在标签名称栏中输入标签名“DayReport_Date”,类型选择“字符串”,数据源类型选择“内存”,点击“接受”,保存标签。
3.2添加ActiveX控件引用
ActiveX控件是一种基于COM接口的控件,通常不能独立使用,只能在宿主程序中运行,支持COM接口规范的编程环境均可使用它。在报表查询画面中,需要使用日历控件,必须提前在“VisualBasic编辑器”中添加ActiveX控件引用。打开SE,点击“视图”,选择“VisualBasic编辑器”。在打开的窗口中点击“工具”,选择“引用”,在列表栏中勾选“MicroSoftCalendercontrol2007”,点击“确定”,保存设置。
3.3创建并组态画面
打开SE的应用项目浏览器窗口,展开HMI服务器的“图形”,右键点击“显示”,选择“新建”,创建画面“Report”。打开画面“Report”,添加日历控件、按钮、文本、字符串等对象。将日历控件的“Value”属性及字符串的表达式属性与“DayReport_DATE”标签相关联,并设置字体、颜色等其他相关属性。
3.4设计报表模板
根据生产岗位的需求,采用MicosoftOfficeExcel2007设计报表模板“日报表.xlsx”。并将报表模板文件存储在“D:模板”路径下备用(此路径应与VBA代码中指定的路径一致)。
3.5设置数据记录
展开HMI服务器的“数据记录”,右键点击“数据记录模型”,点击“新建”,打开数据记录模型的设置窗口。点击“设置”标签,选择“ODBC数据库”,点击“ODBC数据源”;选择“系统数据源”标签,点击“新建”;选择“系统数据源”,点击“下一步”;选择“MicosoftAccessDriver(*.mdb*.accdb)”,点击“完成”;弹出的“ODBCMicosoftAccess安装”窗口,在“数据源名”栏中输入“Report”,点击“创建”按钮,选择保存数据库的位置,在“数据库名”栏中输入“Report”,点击“确定”。点击“创建表”标签,在数据库中创建表“FloatTable”“StringTable”“TagTable”。点击“路径”标签,勾选“启用ODBC备用路径”。点击“文件管理”标签,设置清除ODBC数据库中保存旧记录的天数。点击“记录触发器”标签,勾选“周期性”,根据需求,在“间隔”栏中设置数据采集周期。点击“模型中的标签”标签,添加需要记录的数据标签。
3.6编制VBA程序
【关 键 词】数据库;双机热备份;系统;解决方案
【中图分类号】G250.74【文献标识码】A【文章编号】1672-5158(2013)07-0213-02
引言:近年来,随着经济改革的不断深入,企业的各项业务也有了长足发展,计算机应用水平得到迅速的提高。目前,开放平台加客户/服务器的双机热备份应用模式已经被我国中小型企业广泛采用。
通常这种应用模式是以两台小型机做互为备份的两个节点,同时联到一个共享磁盘柜上,构成一个Client/Server方式下的Server端服务器系统。这种服务器系统在考虑系统的高连续可用性时,一般从主机、网络到UPS电源都是一主一备,存放数据的磁盘选择磁盘镜像技术或选择磁盘冗余阵列5技术(RAID5)。
从硬件角度看,这种配置已经考虑了各组成部分的冗余,然而从应用的角度来看,这样的服务器系统还是有缺陷的。
对应用系统而言,数据库是非常重要的,而在这种服务器系统中数据库只有一个,一旦出现故障,不但整个系统会瘫痪,甚至还会给银行带来很大的经济损失。对于这个问题,双机热备份模式是无能为力的。在实际应用系统的运行过程中,由于参数设置不当或数据库本身存在的缺陷,使得数据库出现的问题在故障率中所占比重还是比较大的,因而给应用系统的可靠运行带来了较大的影响。本文针对这一问题,介绍我单位的一种解决方案。
一、系统的改进方案
为了解决Oracle数据库无备份的问题,必须另建一套服务器系统。然而对中小型企业来讲,另外投资一套小型服务器系统,经济上往往不允许。考虑到现在的PC服务器在性能上已经足可以充当企业级服务器,投资较小,所以我们选择了用PC服务器备份的方案,如图1所示:
根据对IBM System X服务器的压力测试结果,我们认为它具有处理日交易3万笔的能力,符合我单位目前业务的情况,因此我们选用了IBM System X服务器做备份Oracle数据库。
PC服务器硬件配置:
(1)CPU 4×Pentium Pro
(2)内存 8G
(3)硬盘 320G
软件环境:
(1)操作系统 Windows server 2003
(2)数据库 Oracle 10g
(3)应用软件 ERP软件
二、 RAID系统
RAID (Redundant Array of Inexpensive Dins),廉价冗余磁盘阵列。RAID是一种使用磁盘驱动器的方法,它将一组磁盘驱动器用某种逻辑方式联系起来,作为逻辑上的一个磁盘驱动器来使用,使RAID一般是在SCSI磁盘驱动路上实现的。它的优点在于:
通过将多个物理磁盘编织(weaving)进一个单独的逻辑卷来使用,使RAID相对传统的磁盘驱动器,在同样的容量下,价格要低许多。
通过将数据按条块(blocks)写入不同的磁盘来并行地读写几个磁盘,进而提升磁盘访向速度。带有多个磁盘控制器的RAID系统,存取速度提高很快。
RAID的具体实现可以靠硬件也可以靠软件,通过硬件实现RAID的产品有磁盘阵列柜,阵列柜中安装有磁盘阵列控制卡,可以直接将柜中的硬盘配置成为逻辑盘阵。磁盘阵列柜通过SCSI电缆与服务器上普通SCSI卡相连,系统管理员需直接在磁盘柜上配置磁盘阵列。
磁盘阵列控制器一般都支持多种RAID级别、磁盘的热插拔、在线平滑扩容和双冗余电源。
三、备份数据库工作原理
由于PC服务器中的操作系统、数据库与生产机中的版本不同,所以必须先将生产机中的数据库数据卸出来,以文本文件的形式传到PC服务器上,然后将此文本文件再装入PC服务器的数据库中,从而使两个数据库中的数据一致。慎重起见,还可以对重要表的有关字段进行求和,并将两个数据库的求和结果进行比较,若一致则可以放心,不一致则说明上述操作过程有问题,需要排除后重做。
1.日间备份
将每天晚上轧帐后的数据卸出并装载到PC服务器上,使得生产机和PC服务器中的数据在每天业务开始前保持一致。正常开机后,当生产机上的数据库出现问题不能正常使用时,可以通过修改PC服务器的网络地址,使上传的交易传到PC服务器,从而实现数据库的切换。
但应注意,切换后的数据库状态是每天业务开始时的状态,所以还应有一个追帐的过程,直到追帐完成,才算完成整个切换过程。这种切换所需的时间仍远远少于磁带恢复后再追帐的时间。一般磁带备份只做轧帐前的数据备份,这样磁带恢复后还要再做一个轧帐过程,才能恢复到开业时的数据库状态。
2.查找隔日数据
有时根据业务的需要,要求恢复前一天的有关数据,由于白天业务运转不允许生产数据库停下来恢复数据,有了PC服务器,可以将一些数据表在轧帐前卸出来,传到PC服务器上,需要时在PC服务器上恢复出来,进行数据的查找。
3.磁带备份的补充
服务器上的数据还起到异种介质备份的作用,提高了备份数据的可靠性。PC服务器可放在办公环境下使用,这样可使服务器与生产机保持适当的距离,一定程度上提高了整个系统的抗灾能力。
在双机热备份应用模式下,采用PC服务器作数据库的备份,提高了整个应用系统的连续可用性和数据备份的可靠性,由于该方案投资省、易实施,对中小型企业有一定的借鉴价值。
四、系统特点与总结
双机与磁盘阵列柜互联结构的特点是:
硬软结合实现真正意义上的数据与系统分离。
对硬件配置要求不高,服务器可采用不同或相差较大的配置。
系统切换时间段,平均切换时间为60秒。
切换过程对应用程序无影响,无需重新启动或登陆。
系统效率高。因为整个系统中数据读写、管理及容错由磁盘阵列来完成。而系统服务器故障纠错处理由HA软件来完成,而这两个都是相对独立的子系统。双机容错监控路径为SCSI线路(80M/S)和RS232线路或10/ 100MB自适应网卡线路,既不占用主机CPU资源,也不产用基础网络宽带,因此系统效率高。
双机与磁盘阵列柜互联结构不采用内存镜像技术,因此需要有一定的切换时间(通常为60-180秒),它可以有效地避免由于应用程序自身的缺陷导致系统全部宕机,同时由于所有的数据全部存贮在中置的磁盘阵列柜中,当工作机出现故障时,备份机接替工作机,从磁盘阵列中读取数据,所以不会产生数据不同步的问题,由于这种方案不需要网络镜像同步,因此这种集群方案服务器的性能要比镜像服务器结构高出很多。
双机与磁盘阵列柜互联结构的缺点是在系统当中存在单点错的缺陷,所谓单点错是指当系统中某个部件或某个应用程序出现故障时,导致所有系统全部宕机。在这个系统中磁盘阵列柜会导致单点错,当磁盘阵列柜出现逻辑或物理故障时,所有存贮的数据会全部丢失,因此在选配这种方案时,需要选用一个品质与售后服务较好的产品。
五、结束语
计算机技术、网络技术的广泛应用,使企业运作效率大大提高。同时也使现代企业对计算机系统的依赖性进一步增加。如何保证核心应用永不停止,关键数据不会丢失?越来越多的企业采用双机热备份或多机集群技术来解决这一问题,其中双机热备份技术以其技术成熟,成本相对较低,获得了广泛的应用。
典型的双机热备份系统通过在两台服务器上运行双机热备份软件和共用RAID磁盘阵列来实现。这种方案在电信,金触、证券、政府等部门和行业的成功应用,业己证明其可靠性和成熟性。
参考文献
文章首先对Oracle数据库应用中存在的主要问题进行了简要分析,在此基础上提出解决Oracle数据库应用问题的有效方案。期望通过本文的研究能够对Oracle数据库的推广应用有所帮助。
【关键词】Oracle数据库 应用 问题
1 Oracle数据库应用中存在的主要问题分析
Oracle数据库是一种关系型数据库管理系统,其体系结构如图1所示。
Oracle数据库的应用优势主要体现在如下几个方面:数据量大、数据保存时间长、所有数据全部可以实现共享、数据的可靠性较高、稳定性好等等。正是因为Oracle数据库所具有的这些优势,使其获得了广大使用者的认可。然而,该数据库在实际用于却存在一些问题,这在一定程度上影响了Oracle数据库的应用。
1.1 表空间数据删除引起的问题
对于Oracle数据库而言,它的表空间之间相关的数据有两种关系,一种是1对1的关系,另一种是1对多的关系,当需要永久性删除某个表空间时,这个将要被删除的表空间应当处于脱机状态,随后调取数据字典将对应的项目信息删除,再将操作系统目录中的数据文件删除即可。上述删除过程必须按照指定的顺序进行操作,若是先将表空间的数据文件删除,该表空间便无法找到存储媒体,由此可能会引起数据库应用异常,如数据库无法正常启动或关闭等。
1.2 字符集转换的问题
在Oracle数据库的应用中,中英文字符集的转换常常会出现问题,例如,开始应用该数据库时,要求使用英文的字符集,然后便选择英文字符集进行安装,在使用的过程中,由于一些新项目的增加,要求使用中文字符集,若是不对字符集进行转换,新增项目的汉字部分将会显示为3个“?”,由此给数据库的应用带来一定的影响。
1.3 回滚段联机产生的问题
在对Oracle数据库进行应用的过程中,回滚段联机是一个较为常见的问题,也是困扰大部分使用者的主要问题之一。数据库的使用者在对具体应用项目进行安装时,一般都是参照说明书的要求进行安装,由此可能会引起如下问题,即创建回滚段,然后联机,但却并未将之加入到数据库的初始化文件当中,当数据库重启之后,安装的回滚段便会处于脱机状态,这对使用者的应用带来了一定程度的影响。
2 解决Oracle数据库应用问题的有效方案
为了有效解决Oracle数据库应用中出现的各种问题,应当对数据库的性能进行优化,具体可从以下几个方面着手:
2.1 对数据库进行优化设计
想要使Oracle数据库的应用性达到最优,就必须要有一个良好的设计方案,从而使其各方面性能都达到使用者的要求,这样便能够避免实际应用中各种问题的发生。Oracle数据库的设计大体上可以分为两个方面,一方面是逻辑设计,另一方面是物理设计,在前者的设计中主要是为了将数据库中的一些冗余数据全部消除,借此来提高数据的吞吐速度,使数据的完整性得到保障,但对于大数据表而言,可能会影响其性能。所以,在物理设计的过程中,要进行综合考虑,并按照关联表当中的数据量大小以及对数据项访问的频繁程度,提高查询较为频繁的数据表冗余设计,以此来满足应用需要。
2.2 应用程序优化
相关统计结果显示,通过对应用程度进行优化,可以使数据库的性能提高60%左右。由此可见,对应用程序进行优化是提高Oracle数据库性能最为有效的途径之一,随着数据库性能的提升,其应用方面存在的问题会获得有效解决。可以通过对源代码和SQL语句两个方面对应用程序进行优化。通常情况下,SQL语句会消耗数据库中70%-90%的资源,它的执行效率高低直接关系到数据库本身的性能。为此,可对部分劣质的SQL语句进行调整,并对数据库的访问方法进行优化改进,借此来改善数据库系统的整体性能,从而提高其内存区的命中率,大幅度减少对网络带宽的占用以及I/O访问。
2.3 数据库内存分配的优化调整
对于Oracle应用实例而言,其通常都是由Oracle后台进程与SGA的一个内存区组成,在应用实例当中,SGA使用效率的高低会对数据库的性能产生极大的影响,鉴于此,可在具体应用中按照数据库的实际运行情况,对SGA的大小进行重新调整,同时,由于内存分配是在信息系统运行时进行优化配置,所以可在对磁盘I/O的检查时对其进行优化调整。
2.4 操作系统性能的优化配置
在对Oracle数据库操作系统的性能进行优化配置时,可从以下两个方面着手:
2.4.1 规划资源
提供大量的资源是调整操作系统的主要目的之一,资源的具体分配原则为使Oracle服务器的可用资源最大化,尤其是在C/S架构中,应当尽可能使服务器的全部资源都用来运行Oracle服务。因此,操作系统应当为Oracle提供足够的内存,从而可以容纳SGA、用户进程等,这样可以有效解决换页和交换的问题。
2.4.2 优化计算机的配置
对于操作系统而言,扩大内存较为常用的方式为增加虚拟内存,这部分内存属于磁盘空间,如果实际的内存空间不足时,操作系统便会将磁盘空间与内存当中的信息进行页面交换,由此会导致磁盘I/O的操作量增大,从而影响服务器的性能。通过对计算机的优化配置,可以有效减少内存的交换和分页。
3 结论
综上所述,Oracle数据库以其自身诸多的应用优势获得了使用者的一致认可,但在实际应用中,却常常会出现一些问题。为此,可以从提高Oracle数据库性能方面着手,通过各种优化措施,解决Oracle数据库应用中存在的问题,这对于促进Oracle数据库的大范围推广应用具有重要意义。
参考文献
[1]万娟.Oracle数据库应用中出现的问题及其对策[J]现代经济信息,2015(18).
[2]王春丽,王海飞.Oracle数据库安全问题探析与应对策略[J]电子世界,2016(14).
那么,什么是下一代分析生态系统?按照记者的理解,就是结合了商业技术、开源技术的多平台的新一代大数据解决方案。正如Teradata首席技术官宝立明所言,数据分析解决方案正在快速从传统分析解决方案向下一代分析生态系统演进。
谈到数据库或者数据分析市场的变化,在Teradata营销与业务拓展副总裁Mikael Bisgaard-Bohr回顾说,30年前Teradata的核心技术是关系型数据库,随着时间的推移,数据分析市场的需求也起了很大的变化,我们的解决方案也从传统数据仓库扩展至包含开源技术的分析生态系统。现在很多研发人员、数据分析人员也关注如何更好地实现数据变现。“不仅Teradata,其他的传统数据公司都在面临同样的变化,因为整个市场已经发生了变化。”Mikael补充说。
随着非结构化数据量的大幅增加和非结构化数据分析的需求不断加大,单一平台早已经不再能满足所有数据的处理需求。因此宝立明认为,生态系统将成为行业潮流,商业技术要与开源技术结合起来,生态系统方案将成为行业标准和最佳实践;全新的开源技术,特别是Hadoop技术,以及云环境将成为行业趋势。
因此对于大数据分析和应用供应商来说,如何更好地将商业技术与开源技术结合起来,构建完善的生态系统,成为现阶段的一大挑战。
宝立明透露,Teradata算是最早宣布将开源Unix和Linux应用在数据库平台之上的,而且现在Teradata采用的操作系统也是完全开源的。此外,他还透露,Teradata在Hadoop上投入很大,为的是让开源技术可以和商业技术实现互通,例如Teradata开发的专利技术QueryGrid连接器。Teradata还在Hadoop文件系统上添加了仪表盘能力,使流数据能够进入Hadoop进行部署。
“随着大数据2.0时代的到来,越来越多的企业将拥有从海量数据中获取数据价值的能力。尤其在数据体量巨大的中国市场,除了传统的金融、电信、政府等行业以外,零售、医疗、中型电商等都会从大数据分析中获益。”Actian公司CEO Steve Shine如是说。
根据Gartner的预测,如果能实现对企业范围内全部未开发数据的充分利用,将带来150亿美元的潜在商业机会。但目前除了极少数企业可以利用大数据分析开展业务、辅助商业决策外,大多数企业还在大数据的门外徘徊。阻碍这些企业应用数据分析的原因是获取有价值数据的成本过高。
是否有降低成本的方法呢?Actian中国区总经理程小龙告诉记者,帮助企业以简单的方法连接数据、增强分析平台的可扩展能力是解决这一问题的关键。“企业要找到一种简单的方式连接不同的数据系统,而不必关注数据是否来自云或其他地方。在连接上数据系统之后,企业还要有处理和分析越来越多数据的能力。分析平台只有具备横向和纵向弹性扩展的能力,才能保证实现秒级的快速分析和查询,才能提升企业应用大数据分析的成本效益。”程小龙指出。
大数据2.0的目标是打破大数据分析转换为价值的技术壁垒。Actian破局的方法是:通过对底层技术架构的改进,使数据更容易获取、使用和实施。首先,Actian的分析平台可以高速连接任何数据源,整合、转换和分析数据,还能在不断扩展的数据集上按需进行预测分析。即使企业的数据分析平台并未架构在Hadoop之上,整合、转换、分析数据的能力也不会受到影响。其次,Actian提供的是一种高性能的引擎,可以对并行执行的分析过程的每一步进行细致设计,并随企业业务发展的需求变化。这意味着各种规模的企业都可以利用数据来驱动业务创新。
在选择大数据解决方案时,Actian认为企业应该以一种新的视角看待大数据,才能实现以数据驱动商业价值的目标。程小龙建议企业应关注三点:第一,企业必须考虑解决方案是否能帮助他们将不同数据源集成在一起,并判别数据的质量和清洁度;第二,解决方案要在数据量不断增加的情况下依然保证高速、易用;第三,也是最重要的一点,即该解决方案能否让企业获得商业洞察力,获得大数据的商业价值。
HDS公司在转型。这是众所周知的事,没什么大惊小怪的。但是,如果告诉你,HDS正在从一家专门做存储的公司转型为大数据厂商,你会不会有兴趣了解更多HDS转型背后的故事?
创新无止境
HDS是一家典型的技术型厂商,一贯奉行“少说多做”的原则,所以人们很少听说或看见HDS在跟风炒作某个新概念。闪存、软件定义存储、云计算等,HDS都不是第一个推出相关产品或解决方案的。但是,一旦产品后,HDS就一定能保证这些产品是具有HDS特色的、成熟且可以大规模商用的,能够给企业客户带来实实在在的价值。
在存储虚拟化技术领域,HDS基于存储控制器的虚拟化技术在业界一枝独秀,尽管当时基于存储网络的虚拟化技术风光正劲,但HDS始终“我行我素”。最终结果表明,HDS的存储虚拟化技术是过硬的,其存储虚拟化产品一直保持着很高的用户认可度。在很多用户的印象中,HDS一直是一家专业的存储厂商。
但是进入云计算时代,一向比较谨慎、低调的HDS开始变得活跃起来。从技术和产品的角度看,HDS很快便采纳了“融合”的理念,推出了业界影响力可与其经典的存储产品相媲美的统一计算平台。如今,在亚太地区,HDS统一计算平台已经成了最受企业客户欢迎的解决方案。
多在技术上下功夫,很少谈及理念的HDS如今也开始热衷于谈论新的概念,并陆续抛出了与云计算、软件定义等最新趋势相关的战略、技术框架和蓝图。许多人能够脱口而出的HDS“三朵云”战略――基础架构云、内容云、信息云,成了HDS云计算的行动纲领。HDS的新产品研发和市场推广策略都是围绕着“三朵云”展开的。
云计算是基础架构,是工具,它的价值在于可以更好地支持行业客户的应用。在以大数据、物联网、智慧城市等为代表的新一波应用浪潮兴起时,云计算开始慢慢走向后台,成为推动大数据、物联网、智慧城市等应用发展的幕后的那只手。云计算技术与大数据、物联网、智慧城市等应用之间的互相渗透、融合将成为IT市场发展的主旋律。
HDS全球解决方案、社会化创新营销副总裁Ravi Chalaka表示:“以前,人们都知道HDS是一家存储公司。但是今天,HDS的技术和解决方案已经跨越了多个市场和应用领域。HDS已经从一家专注于存储的厂商演变为提供融合性解决方案的厂商,产品包含服务器、存储、网络、嵌入式软件等。近几年,HDS一直在大力发展自己的软件,并取得了突破性的成果。HDS的软件解决方案主要包括虚拟化软件、管理软件和应用软件等。”
今天的HDS已经不再是人们印象中那个专注于存储的HDS了。特别是经过过去几年云计算、大数据的洗礼,HDS已经有了新的定位,制定了新的战略。
HDS的变化主要表现在以下几方面。第一,HDS最直接的竞争对手已经不再是EMC、IBM这样的存储厂商,而是像通用电气公司、西门子、Oracle这样在社会化创新领域有很大投入的企业。第二,HDS进一步明确了自己的目标市场,就是大中型企业客户。目前,HDS在全球拥有1.4万个客户。在“财富100强”企业中,81%是HDS的客户。第三,HDS公司内部软件和硬件的收入比重也发生了很大变化。最新的统计数据显示,HDS业务收入的54%来自于软件和服务,而三年前这一比例只有25%。在过去4年中,HDS进行了大大小小9次收购,被收购的厂商大部分是做软件、服务或大数据解决方案的。从收入比例来看,HDS不再是一家单纯的提供存储硬件的厂商,而是正慢慢转型为一家解决方案提供商。
为了配合解决方案的需要,HDS越来越重视与生态系统中的合作伙伴的合作,特别是与增值分销商、系统集成商的合作。通过这些合作伙伴,HDS可以更好地为企业级客户提供服务。
Pentaho是敲门砖
以前,HDS也能为大数据提供支持,但仅限于硬件和存储架构。以收购数据集成、可视化和分析软件厂商Pentaho为标志,HDS真正融入了大数据领域,并打开了通往物联网市场的大门。
在今年4月举行的HDS Connect 2015大会上,HDS对Pentaho的收购成了谈论最多的话题之一。当时,由于HDS还没有完成对Pentaho的收购,Pentaho这样一个很可能决定HDS未来大数据策略走向的产品是继续保持其独立性,还是完全融入HDS原有的产品中成了人们关注的焦点。
6月,尘埃落定,HDS正式完成了对Pentaho的收购。Pentaho成为HDS公司旗下一员,但原品牌名称保持不变。Pentaho平台除了继续独立提供服务以外,也会与HDS的其他相关分析软件结合,从而进一步扩展HDS的大数据解决方案。
以前,HDS的大数据解决方案主要集中在基础架构层面,为大数据分析提供平台支撑。有了Pentaho的分析软件以后,HDS可以深入大数据分析的核心,也更贴近客户的应用,可以把大数据分析的主动权尽量掌握在自己手中。
还记得HDS著名的“三朵云”吗?在HDS公布的大数据愿景中,基础架构云、内容云和信息云仍起到了核心的支撑作用,但也有了细微的变化,变成了相对应的软件定义基础架构、内容管理云架构和信息智能云。在这三层云架构之上是HDS通用的高端数据分析和访问平台。三层云架构与数据分析与访问平台合在一起,构成了HDS社会化创新的基石。
HDS倡导的社会化创新与物联网市场是遥相呼应的。在社会化创新方面,HDS选定了六大行业作为突破口,包括电信、医疗、商业分析、公共安全、石油和天然气、汽车。“物联网是下一轮技术革新的重点。”Ravi Chalaka分析说,“一台大型机可以支持数百个客户,一台小型机可以支持数千个客户,而在物联网时代,数以十亿计的设备被连接在一起,每个设备,甚至每双鞋都在产生数据。这就是物联网的能量。在未来的20~30年中,大部分的数据分析和计算都会围绕着由物联网产生的数据和信息进行。HDS关注的只是物联网中能够产生价值的那部分数据。只有通过对这些有价值的数据和信息进行分析,才能产生洞见,才能让整个社会变得更加健康、安全、美好。HDS希望更快速地交付能够达到上述目标的物联网解决方案。”
确立主导地位
在社会化创新方面,HDS坚守三大战略核心:数据为核心,软件是基础,同时实现全面连接。具体来说,数据要保持其独立性,即与创建它的硬件平台和应用分开。软件将是HDS未来收购的重点。所谓全面连接,就是HDS要借助整个集团公司的力量,通过物联网支持社会化创新策略的实现。HDS将不断推出整合型的解决方案,同时借助合作伙伴的力量,打造一个社会化创新的生态系统。
随着数据库市场不断变化,全世界的IT部门现在必须应对日益复杂的数据库环境。戴尔软件最近一项关于数据库管理趋势的调查证实,IT专业人员正在管理比以往任何时候更多的数据和数据源,需要承担更多的任务,并学习新的数据库技术。戴尔软件致力于帮助客户管理全部数据,并从中创造更高的价值。
戴尔软件信息管理产品执行总监Darin Bartik表示:“在过去的15年里,Toad系列一直引领数据库工具市场,我们目前的投资和创新旨在确保它在未来15年里继续引领市场。作为戴尔的‘全数据’战略的组成部分,Toad产品组合正从一套针对数据库专业人士的工具,演变为一个产品组合,让团队和企业把所有数据作为业务资产进行管理。戴尔将继续在Oracle和其他关系型数据库平台上扩大领导地位,并支持新的平台,如Hadoop、 MongoDB和SAP HANA,因为这些数据库正日益成为客户复杂数据带来的挑战的重要部分,而戴尔也正在推动Toad产品组合超越数据库本身局限,为集成和数据分析等工作简化流程。”
Toad系列在全球拥有超过200万的用户,是市场上领先的独立数据库管理解决方案,也是戴尔软件端到端信息管理产品的重要组成部分。通过实现与管理复杂的数据库环境相关的许多常见的管理、开发和数据准备工作,Toad解决方案有助于用户提高数据库的性能、可用性和工作效率。Toad系列的最新增强包使数据专业人士能够更好地管理Oracle、SAP、IBM和Hadoop数据库,并为数据分析准备来自各式平台的数据。具体更新的内容包括:
增强的敏捷应用开发。Toad for Oracle 强调其从单用户工具演变成供所有IT团队使用的解决方案,加强了对敏捷式开发最佳实践的支持,实现持续的融合方法。
通过整合Toad Intelligence Central组件,新版Toad for Oracle可以帮助开发和DBA团队更好地协作,让用户更方便地共享Toad文件和属性,如脚本、连接、自动化操作和代码分析规则。
管理团队现在可以使用新的基于Web的代码分析报告,查看历史和就绪性代码报告,且无需额外的许可证。
Toad for Oracle的其他增强功能包括重新设计的主SQL开发区和改进的团队编码区,以加强对第三方版本控制系统的支持和管理。
Toad Data Point拥有升级过的转换和清洗引擎,包括数据分析能力、新的转换规则以及处理更大的数据集的更强大引擎,让用户更轻松地操作和更改数据。
那么相较于E5,E7 V2产品家族有何亮点?在E7 V2系列产品会上,英特尔方面介绍,E7 V2增加了很多内核,极大地提升了计算性能,在一些实测中甚至超过了2倍。E7 V2产品扩大了存储量和I/O,使更多的数据可以被存储集中,并使数据能够快速进出,效率提升达148倍。从功耗和成本方面来看,也会给用户带来额外的收益。
至强E7 V2处理器(如图)的推出,给行业应用带来很多解决方案。在海外,已经有针对零售商的解决方案,即针对消费者个人的定制化方案,比如消费者在什么时间,去哪儿购物,买了哪些商品,如何支付?这些海量的数据,都可以利用至强E7 V2强大的存储和处理能力,进行收集和及时处理,从而帮助零售商进行业务分析和决策。海外某电信公司,基于至强E7 V2处理器平台,几百万条运行的Hadoop数据,在几分钟内就将其转化为价值。
戴尔是英特尔合作伙伴之一,在E7 V2产品家族会上,戴尔大中华区企业级解决方案部市场总监彭宇恒透露,英特尔处理器每次更新,戴尔服务器产品也会进行更新。“2年前E5的问世,使得戴尔在7个季度的时间里,每个季度在中国区X86服务器的份额一直排名居首”。
而此次英特尔E7 V2的,戴尔所配合的是R920四路服务器。R920有较好的扩展性,服务器内存达6TB,可以支持24个本地存储驱动器,这些能够帮助客户实现更好的IT响应速度。同时也用到了Compellent全闪存阵列、Fluid Cache for SAN技术,它以帮助客户实现在不同的计算节点上的PCIe SSD上的数据,形成数据池。还可以和后台存储系统进行数据交换,这极大地提升了系统处理的性能,同时还能保证数据的安全,因为PCIe SSD和内存相比不怕断电,如果数据出现一些问题,还有SAN数据做备份。
针对行业客户的不同需求,戴尔提供了多种不同的解决方案。以城市交通实时管理系统为例,对某一城市的交通进行实时分析,大概共有100亿条数据,数据总量为40TB,这在以前需要几个小时才能实现,而现在,数据读取是实时的,数据分析的图形也是动态的、变化的,可以逐步细化到每个小时、每辆车的实时数据,能够对城市的交通管理给出及时的决策。
再比如车辆的运价补贴,根据投入和成本比,或者劳动强度进行可选性分析。如把收入成本设为可调,其他参数给定的话,平均收入结构就可以实时展现出来,运价补贴随之变化,这样,通过一系列参数的调整,可得出在多大范围内运价补贴是合理的,这对运载车的运价补贴能够提供有效的解决方案。
专注大数据咨询服务
Think Big公司是Teradata于2014年9月并购的大数据服务公司。Think Big公司联合创始人兼国际业务高级副总裁里克・法内尔(Rick Farnell)介绍,成立于2010年的Think Big公司专注于开源数据服务,其愿景是帮助客户运用新的开源技术,与现有技术优势互补,从各种类型的数据中挖掘分析价值。
Teradata大中华区首席执行官辛儿伦(Aaron Hsin)介绍,自从成立以来,Teradata在过去40多年中一直专注做好一件事,那就是数据分析。Teradata帮助客户通过有效的数据分析获得业务洞察力,从而实现业务增长,提高利润,为客户提供更好的服务。
他强调,在过去的5到10年里,开源技术的发展和广泛运用,使得半结构化、非结构化数据分析成为可能。为此,作为数据分析领域的全球领导者之一,Teradata积极跟进,除了自身研发以外,非常开放地融合优秀的开源数据分析技术,并形成了高效的统一数据架构(UDA)。据悉,Teradata 统一数据架构整合了Teradata 数据仓库、Teradata Aster大数据探索平台和开源Hadoop。
辛儿伦认为,在大数据生态系统建设中,客户认识到需要整合不同技术架构的优势,特别是在已有数据仓库系统中融合开源技术,需要更好的工具来管理、访问和利用这些平台,尤其是需要具有实际经验的团队来指导Hadoop等复杂的开源系统的延伸部署。随着客户开始应用,或者开始尝试应用诸多不同的技术架构或版本,它们面临着很多技术选择和路线图规划等实际问题,这往往会导致项目偏离既定的大数据战略目标和业务目标。
“随着各种规模的企业在落地大数据战略时选择不同的开源分析系统,客户对开源系统咨询服务的需求快速上升。我们致力于实现最新开源技术同现有成熟技术的优势互补,借助我们优秀的数据科学家、数据工程师和咨询团队,帮助全球的客户更快速、高效和便捷地获取大数据价值。”里克・法内尔表示。
据悉,目前包括Intel、Facebook、NetApp、纳斯达克(NASDAQ)、美国运通公司(American Express)和eBay等在内的知名企业,均是Think Big公司的客户。正因为如此,Teradata收购了Think Big公司。
“Teradata拥有完整的大数据分析生态系统,借助统一数据架构实现Hadoop等开源分析系统、Teradata Aster大数据探索分析技术和数据仓库环境的完美整合。”辛儿伦说,“借助Think Big专业的咨询服务,Teradata将能够向客户提出多元化大数据的卓越咨询建议,降低大数据分析系统部署和应用的难度,进一步强化统一数据架构的优势,推动大中华地区客户数据驱动转型的实现。”
提供四大核心服务
记者在沟通会上了解到, Think Big在大中华区将广泛支持厂商中立的开源解决方案,根据客户实际的业务需求,推荐基于现有技术和解决方案的最佳技术和方案组合。Think Big致力于帮助客户通过应用最新数据分析技术来获得大数据的价值,提升竞争力和利润。其核心咨询业务包括:
其一,大数据战略咨询服务。根据客户业务需求和战略目标,制定符合企业需求优先等级和能力的大数据战略,帮助企业更快地获取大数据价值。里克・法内尔认为,现在很多客户制定大数据战略时有个误区,就是尽可能采用最新的开源技术,事实上企业应该先考虑建立一个平台,然后在这个平台上建立、充实相关的能力。辛儿伦介绍,Think Big可给客户制定一个为期6周的启动数据分析应用的路线图,帮助客户确定流程和数据选择的优先级,及其对业务的影响,并帮助客户构建最佳数据架构;在此基础上,还可给客户提供为期12个月的发展路线图,其中涵盖Think Big的方法论。
其二,数据工程服务。根据客户的业务目标,设计、开发和交付最适合的解决方案,提供现有分析架构优化和数据湖治理等服务。Think Big可提供数据湖的优化服务,以满足客户对生产系统、生产环境的数据服务需求。
其三,分析和数据科学服务。通过广受认可的数据分析方法论,帮助客户解决现存的业务问题,通过创新的数据分析方法,发掘全新的业务机会。
其四,管理服务和培训。提供大数据分析系统的管理和优化,助力企业提高数据分析效率和洞察力,通过各种形式的培训帮助企业真正获得能力,提高数据和分析系统的采用和普及。人才短缺是客户应用大数据的一大挑战,而Think Big特别重视大数据战略和专业技能的培养,尤其强调培养优秀的团队是大数据战略的最佳实践。Think Big拥有强大的专家团队资源和“Think Big大数据学院”,致力于为客户和合作伙伴提供全面的人才培养服务,通过授人以渔的方式帮助企业实现数据驱动的业务成功。
已经有具体项目在开展
辛儿伦表示,Teradata在大中华区推出Think Big的全面服务,不仅体现了公司对高速发展的大中华区市场的重视,而且反映出客户对Teradata和Think Big服务和能力的高度认可。
“自从有了Think Big团队之后,客户跟我们合作得更加紧密了。”辛儿伦表示,Teradata已经在华发展了20多年,积累了很多合作时间长达15年甚至20年的客户,Think Big的业务能够让Teradata引入更多开源技术和解决方案,帮助客户解决更多的业务痛点。
辛儿伦非常看好Think Big在中国市场的前景。他透露,尽管Think Big的业务刚引进中国,但是用户对相关业务的需求却非常迫切,Teradata已经获得了多个行业的客户合同,并且已经有具体的项目在开展。
完整的数据分析主要包括了六个既相对独立又互有联系的阶段,它们依次为:明确分析目的和思路、数据准备、数据处理、数据分析、数据展现、报告撰写等六步,所以也叫数据分析六步曲。
明确分析目的和思路
做任何事都要有个目标,数据分析也不例外。经常有一些数据分析爱好者,向数据分析高手请教以下问题:
这图表真好看,怎么做的?
这数据可以做什么样的分析?
高级的分析方法在这里能用吗?
需要做多少张图表?
数据分析报告要写多少页?
为什么这些数据分析爱好者会提出这些问题呢?原因很简单,就是他们没有明确的分析目的,为了分析而分析,而且一味追求高级的分析方法,这就是数据分析新手的通病。
如果目的明确,那所有问题就自然迎刃而解了。例如,分析师是不会考虑“需要多少张图表”这样的问题的,而是思考这个图表是否有效表达了观点?如果没有,需要怎样调整?
所以在开展数据分析之前,需要想清楚为什么要开展此次数据分析?通过这次数据分析需要解决什么问题?只有明确数据分析的目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途,后果严重。
当分析目的明确后,我们就要对思路进行梳理分析,并搭建分析框架,需要把分析目的分解成若干个不同的分析要点,也就是说要达到这个目的该如何具体开展数据分析?需要从哪几个角度进行分析?采用哪些分析指标?
同时,还要确保分析框架的体系化,以便分析结果具有说服力。体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑关系。如何确保分析框架的体系化呢?可以以营销、管理等方法和理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性、分析框架的体系化、分析结果的有效性及正确性。
营销方面的理论模型有4P理论、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理以及分析提供清晰的指引方向。
数据准备
数据准备是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,如公司内部的数据库、市场调查取得的数据等;第二手数据主要指经过加工整理后得到的数据,如统计局在互联网上的数据、公开出版物中的数据等。
数据处理
数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。
数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。
数据分析
数据分析是指用适当的分析方法及工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论的过程。
在确定数据分析思路阶段,数据分析师就应当为需要分析的内容确定适合的数据分析方法。到了这个阶段,就能够驾驭数据,从容地进行分析和研究了。
由于数据分析大多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉主流数据分析软件的操作。一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的分析软件进行,如数据分析工具SPSS、SAS等。
数据展现
通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能让别人一目了然呢?一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。
常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、瀑布图、漏斗图、帕雷托图等。
多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。一般情况下,能用图说明问题的,就不用表格,能用表格说明问题的,就不用文字。
报告撰写
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,以供决策者参考。所以数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
一份好的分析报告,首先需要有一个好的分析框架,并且层次明晰,图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读对象正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
顺丰单号sf13位数字,查单号的时候,两个字母也要输入。
顺丰是国内的快递物流综合服务商,经过多年发展,已初步建立为客户提供一体化综合物流解决方案的能力,不仅提供配送端的物流服务,还延伸至价值链前端的产、供、销、配等环节,从消费者需求出发,以数据为牵引,利用大数据分析和云计算技术,为客户提供仓储管理、销售预测、大数据分析、金融管理等一揽子解决方案。
(来源:文章屋网 )
· 为什么要做数据分析?
· 数据分析的目的是什么?
· 数据分析的一般过程是怎样的?
· 有哪些数据分析方法?
· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?
· 在国内最容易犯哪些数据分析的错误?
因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。
(一)数据分析的核心作用
根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。
这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。
(二)数据分析的分类
最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。
所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。
探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。
(三)数据分析的一般过程
通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。
现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!
其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。
接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。
最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。
(四)客户中心常用的数据分析工具及简介1 Excel
Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。
2 SPC
SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。
3 SAS
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
4 JMP
JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
6 Minitab
Minitab软件是为质量改善、教育和研究应用领域提供统计软件和服务的先导,是全球领先的质量管理和六西格玛实施软件工具,具有无可比拟的强大功能和简易的可视化操作,对一般的数据分析和图形处理都可以应付自如。
通过一系列收购,EMC已经建立了一条比较完善的大数据产品线。在此基础上,EMC抛出了大数据之旅的三段论。
第一关:构建云基础架构
大数据分析和处理的基础是完善的云基础架构,主要包括大数据存储和大数据分析两个平台。
EMC大数据存储平台的两大支柱产品是Isilon集群NAS以及Atmos海量智能存储。Isilon集群NAS是EMC两年前收购的产品,具有很强的横向扩展能力,使用起来非常方便。目前,Isilon集群NAS被用于许多云存储的项目。Atmos海量智能存储可以很好地支持分布式大数据计算。许多电信运营商基于Atmos构建了公有云系统,其部署非常简单,而且性价比很高。
EMC的大数据解决方案分成纯软件和软硬件一体两种。Isilon集群NAS与Greenplum软件组成了一体化解决方案。蔡汉辉介绍说:“Isilon集群NAS目前主要作为大数据存储平台,可与Greenplum、Hadoop结合,但同时也会兼顾传统存储应用。为了更好地支持大数据和云服务,Isilon集群NAS在今年底还会开放API,让更多第三方的厂商能基于Isilon集群NAS平台进行开发。”
EMC大数据分析平台的核心是两年前收购得来的Greenplum的产品,主要包括Greenplum Database(支持结构化数据库)和Greenplum HD(支持Hadoop)。蔡汉辉介绍说:“Greenplum大数据分析平台可以实时处理任何来源的数据,包括结构化、半结构化和非结构化的数据。Greenplum不仅可以处理PB级的数据,而且处理速度可以达到10TB/h。”
第二关:实现社交化服务
构建高性能、可靠、灵活的大数据分析平台是第一步,接下来,用户要构建数据处理的协作平台,建立自助服务的环境。EMC把这个阶段称为社交化阶段。
2012年3月,EMC了首个用于大数据的社交工具集Greenplum Chorus,使得数据科学家可以通过类似Facebook的社交方式进行协作。Greenplum Chorus是EMC中国研发团队主导开发的产品。Greenplum Chorus基于开放的架构,是一个用于数据挖掘和协作分析的流程平台。Greenplum Chorus包括数据探索、个人项目工作空间(又称个人沙盒)、数据分析和几个主要环节。
Greenplum Chorus开发主管庄富任介绍了Greenplum Chorus的工作流程:Greenplum Chorus提供了强大的搜索引擎,可以快速寻找到数据,并将这些数据进行关联,从而实现数据采集的可视化;采集来的数据被放到个人沙盒中进行处理,这个处理过程不会影响整个数据库的运行;在协作分析阶段,数据分析人员可以共享工作空间、代码,协同工作兼具灵活性和安全性;最后,相关的处理结果被出来。上述处理过程将循环往复。
Greenplum Chorus未来将走向开源。EMC已经了一个名为OpenChorus的计划,其目标是促进技术创新,同时促进那些运行在Greenplum Chorus平台上的协作的、社交化的数据应用的普及。2012年下半年,EMC还将公布Greenplum Chorus源代码,让更多人加入到Greenplum Chorus阵营中来。
第三关:敏捷开发服务
大数据处理的第三个阶段就是构建一个敏捷的开发环境,用于实时决策,并且更好地支持大数据应用程序。
从形式上看,传统的大数据方案包括打包方案和定制化开发两种。打包方案具有高效率、低成本的优势,但是需要精确的数据模型。定制化开发可以实现应用的创新,但是实施起来难度大,周期长,而且价格昂贵。EMC希望为用户提供一种敏捷开发的方式,在充分发挥上述两种方案优势的同时弥补其不足。为此,2012年3月,EMC收购了Pivotal Labs公司。Pivotal Labs是一家私营的敏捷软件开发服务和工具提供商。
沙中淘金,并非易事。4月23日~24日,主题为“数据价值,极致演绎”的“2013Teradata大数据峰会”云集了金融、电信、航空、零售、制造等1000多名行业用户,与Teradata一起讨论如何在大数据时代对数据进行高效管理和分析,挖掘数据金矿。
被忽略的V
当前,业界普遍认为大数据具有3V属性,即Volume(数据容量大)、Velocity(增长速度快)和Variety(数据类型繁多)。然而,Teradata天睿公司大中华区首席执行官辛儿伦表示:“我们往往忽略了大数据的另外一个V,即Value(价值)。但这才是最重要的V。”
正如辛儿伦所说,如果不能在无穷无尽的数据沙粒中淘出真金,收集、处理再多的沙粒也毫无意义。Teradata天睿公司国际集团总裁Hermann Wimmer介绍,Teradata天睿公司通过大数据分析、数据仓库、整合营销等解决方案为各个行业的用户提供价值。
可以想见,金融、电信、零售等行业对大数据分析与管理存在着旺盛的需求,他们更为迫切地希望大数据为他们的运营、营销与服务带来价值。“2012年上半年中国工商银行手机银行新增客户动户率提升至18%,交易额同比增长300%,已经有75%的业务通过柜台以外的方式办理。”中国工商银行信息科技部副总经理张颖在峰会的主题演讲中表示,业务的快速发展带来了大量的客户数据,只有对这些数据进行充分的挖掘和分析才能持续提升服务水平,形成良性循环。
张颖介绍,中国工商银行通过客户特征分析提炼客户消费特征,从而可以定制针对个人的营销方案;基于数据仓库的数据挖掘,2012年12家分行展开了15项精准营销活动,综合成功率超过20%;当个人客户申请贷款时,信贷系统将根据数据仓库中的信息进行客户评级,并根据评级完成信贷流程。
统一数据架构
提到大数据就不能不提Hadoop。作为大数据分析提供商,Teradata天睿公司如何看待Hadoop呢?
Teradata天睿公司首席技术官宝立明认为,Hadoop具有良好的扩展性和高吞吐量负载率,存储成本低并且没有软件许可成本,对工程师而言高效且灵活,开源等诸多优势,但同样存在着在复杂查询和批量作业性能欠佳,开发部署成本高,难以被全企业广泛采纳,不成熟、周期长等挑战。
峰会上,Teradata天睿公司重点演示了新一代数据分析解决方案――Teradata统一数据架构(Teradata Unified Data Architecture,简称UDA)。该架构在集成平台上整合了Teradata整合数据仓库、Aster大数据探索平台以及基于Hadoop的数据存储预处理,使用SQL-MapReduce专利技术以及SQL-H等功能强大的连接器,无需分析人员掌握复杂耗时的编程语言。
“通过UDA,用户可以实现从原生矿到金矿粉再到提炼金子的完整过程。”辛儿伦说。在宝立明看来,UDA是一个极佳的解决方案,它突破了现有的单点数据分析技术的局限,Teradata数据仓库、Aster大数据探索平台与Hadoop形成互补,让企业用户根据业务需求选择合适的大数据架构,同时通过UDA将这些数据进行有效的整合。
“过去,企业在数据仓库中要求高效、精准的数据分析,例如经营分析等场景。现在,新的业务场景可能要求企业整合各个方面的数据,如果只用传统的结构化数据分析模式,已经不见得是最经济有效的办法了。所以,企业必须将数据集中起来,通过一个强大的探索整合平台,才有可能真正得到大数据中的某些重要价值。”辛儿伦认为。
从1星期到1小时
要实现大数据最重要的一个V(价值),就需要处理好其他三个V。数据容量(Volume)不必多说,数据类型的多样性(Variety)完全可以通过UDA来解决,而快速增长(Velocity)就要求大数据平台必须进行快速的分析和响应。
LinkedIn是全球最大的职业社交网络媒体。LinkedIn商业分析部总监张梦溪在接受本报记者专访时介绍,数据分析传统的金字塔模型从下到上包括技术层和分析层两个层面,依次为:技术层的数据采集和质量管理、商业智能和报表,分析层的专业分析、深度分析、商业洞察和决策,技术层往往占用了近90%的资源。“我们希望让技术层的工作变得高效,在实施数据标记并保证数据质量的前提下,将员工的精力集中到核心分析工作上。金字塔模型则随着底层的精简变成一个菱形。”
分析模型的简化,离不开高效解决方案的支持。“我们选择了Aster data,是因为它的数据分析速度非常快。”张梦溪介绍,Aster data能够对结构化数据和非结构化数据进行更深入的关联分析,帮助LinkedIn分析师很快发现大数据的大价值。自2008年开发了‘你可能认识的人’功能之后,LinkedIn相继推出了‘你感兴趣的人’、‘你想雇佣的人’等功能,这些都是基于Aster data做的研发。
“在全部数据转移到新平台后,尽管LinkedIn的数据量以几何倍数的速度疯涨,但是相关数据分析时间却从1星期缩至1个小时以内。同时,由于快速的响应和丰富的功能,LinkedIn的用户黏性提高了30%到40%。”张梦溪说。
用IDA拥抱大数据
峰会云集了诸多行业用户现身说法,他们是大数据应用的先行者,当他们已经将美味的蟹肉含在口中的时候,也会让那些跃跃欲试的人们更为心动。
Hermann Wimmer指出,无论传统企业还是新兴企业,都会出现越来越多的大数据需求。“数据的来源将越来越丰富,获取也越来越容易。但如何整合营销、销售、研发、财务、人力资源等各个部门的数据,并对这些数据进行精准分析,才是对于企业来说最为重要的。”
继LinkedIn、Facebook、Twitter等硅谷互联网公司依靠数据分析实现闪电式扩张后,国内互联网行业也开始反思烧流量、大规模地推、补贴等粗放式增长模式是否可以持续。
许多互联网公司纷纷开始了数据驱动业务增长的尝试,希望借助技术手段和数据分析,以最低成本甚至零预算获取客户和收入的指数级增长,成为和上述明星公司一样的“增长黑客”。
GrowingIO是一家商业数据分析公司,成立于2015年5月,其实时商业数据分析产品GrowingIO V1.0同时适用于Web页面、HTML5页面以及iOS/Android客户端的数据分析。创始人兼CEO张溪梦曾任LinkedIn美国商业分析部高级总监,创建了LinkedIn近百人的商业数据分析和数据科学团队。GrowingIO创始团队主要来自LinkedIn、eBay等互联网和数据公司。
张溪梦认为:“无论全球还是中国范围内,移动互联网的增长红利窗口正在逐渐消失,粗放商业模式带来的利润和利润率已越来越低。我们希望能帮助企业用商业数据分析这种直接有效的方式实现运营效率、用户数和收入的指数级提升。”
采集数据需手动埋点成企业痛点
普华永道2015年度CEO调查分析报告显示,受访的绝大多数CEO在这一年里更加关注企业的运营效率、数据分析和用户体验。与此同时,利用实时分析数据,可以带动企业高速增长。
然而,数据处理周期长、大量数据没有有效收集、不能灵活满足需求等因素导致企业对数据的使用效率实际上非常低。采集数据要手动埋点,是很多企业转向数据驱动业务的核心挑战之一。从Tag Management的研究报告来看,从需求沟通到完成代码预埋,平均用时是3周。
GrowingIO主要针对此前数据分析产品需手动埋点、数据采集不全、核心业务数据无法保留、工程量繁重、可视化图表制作耗时漫长、业务人员无法自主按需分析、无法对用户行为进行实时深层分析等痛点,首次实现了无埋点数据采集、全面收集实时数据、一键出图、实时数据分析等功能,还可为企业提供高级定制分析解决方案。
GrowingIO V1.0只需加载一次JavaScript代码或SDK即可使用,极大缩减了安装和调试的时间。用户加载完成几分钟后就可以实时采集到页面任一元素的用户交互数据,实时地看到所有的历史数据趋势,而不用提前定义需要采集的事件和功能。
这种无埋点技术不需要工程人员在任一元素上单独设置代码就可以收集数据,极大降低了工程量,让数据分析流程从传统的数天、数周缩短到了几小时,甚至几分钟。
张溪梦告诉《创业邦》:“我们开发的是普适化产品而非定制化服务,所以这个方案是全自动化完成。我们希望让企业内部的每一个人都能做到数据驱动决策,用商业数据分析推动用户和营收的增长。”
支持多维度自定义指标深层次分析
张溪梦说,GrowingIO V1.0的优势在于,“除了基本DAU、PV、停留时长和留存率等基础指标之外,能进行在任意多维度下自行定义指标,对用户行为进行深层分析,如追踪转化率、观察用户行为趋势、预测流失用户等,进一步辅助提出产品优化建议”。
此外,GrowingIO还能为企业提供高级定制分析解决方案,帮助客户实现拉新、留存和激活,最终实现用户、营收和利润的指数级增长。