本站小编为你精心准备了通信线路状态统计数据仓库与OLAP应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1OLAP数据仓库总体设计
数据仓库(DataWarehouse,DW)是一个面向主题的、集成的、非易失的,随时间变化的数据集合、支持管理部门的决策过程[1]。为了满足企业的需求,首先要对关系型数据和其它外部数据源进行抽取、转换、清洗,然后将处理过的数据装载到数据仓库中。联机分析处理(OLAP)从数据仓库中提取数据并建立多维数据集,使得用户可以利用多维数据集多角度、多层次地观察数据仓库中的数据,从而选取有价值的信息。线路状态统计系统的OLAP数据仓库总体结构如图1所示。图1数据仓库总体结构图(1)通信源数据。源数据主要包括了通信运营企业的各种业务数据、外部数据以及与之相关规定的文档资料等。(2)数据仓库服务器。通信源数据通过ETL工具的数据清洗、转换等操作后,把历史数据集成到数据仓库中。其中,还包含数据仓库监控管理和数据仓库的元数据管理。(3)OLAP及数据挖掘。数据仓库搭建好之后,在其基础之上建立多维数据集和进行数据挖掘工作。
2.1通信线路状态统计系统数据分析近年来,通信行业的快速发展,累积了大量的业务数据,这些数据包含了大量与企业发展相关的信息。通过对通信线路状态统计系统数据库系统的研究,得到与之相关的主要源数据表有32个,如端口统计表、测试统计表、每小时统计表等。
2.2数据仓库主题的确定数据仓库中的数据是面向主题组织的。主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域[2]。针对需求分析,根据得到的分析型业务需求,结合应用系统及其数据的调研与数据分析的结果,按照通信公司数据库的特点,通信线路状态统计系统的主题可以分为端口统计主题、小时类统计主题、测试类统计主题。
2.3设计数据仓库逻辑模型和物理模型目前,最流行的数据仓库数据模型是多维模型[3]。多维模型大多以星型模式、雪花型模式或事实星座模式的形式存在。本文采用雪花型模式。雪花型模式虽不如星型模式流行,但雪花型模式减少了数据的冗余。在数据仓库的逻辑结构中,数据表可以划分为两类:一类是事实数据表(简称为事实表),用来存储数据仓库的实际数据,如通信线路状态统计的端口统计表即是一个事实表;另一类是维度数据表(简称为维度表),用来存储数据仓库的维度数据,如端口数目表、端口类别表、日期表、设备表等分析角度均为维度表等。事实表是数据仓库的核心,也是数据仓库中最大的表。事实表包含了通信线路状态统计的基本情况等详细信息,是对通信线路状态统计进行分析的素材。事实表的设计包括对事实的选择、量度的构造、粒度的设计和聚合的设计等。在本数据仓库设计中,共有3个事实表:端口统计事实表、测试统计事实表、每小时统计事实表。维度表是商务智能的基本驱动力。通过维的切换,可以从不同的角度观察客观世界。基于不同的维度,可以看到各量度的汇总情况,也可以同时从多个不同的维度进行交叉分析。该数据仓库设计中,主要有29个维度表。如时间表、日期表、设备表、端口表等。在确定了数据仓库逻辑模型的事实表和维度表后,就要确定物理模型。数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的实现模式,包括了逻辑模型中各种实体表的具体化,例如表的数据结构类型、索引策略、数据存放位置和数据存储分配以及物理模型的优化操作等[4]。完成数据仓库的逻辑模型和物理模型的设计后,就可以创建数据仓库。数据仓库也是一种数据库,因此在逻辑结构设计完成之后可以跟普通的数据库一样创建、修改和删除。
2.4数据抽取、转换和加载完成数据仓库的设计后,就需要通过ETL工具往数据仓库中装载数据。ETL,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,是负责完成数据从源数据向目标数据仓库转化的过程,是实施数据仓库的重要步骤,是构建数据仓库的重要一环[5]。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。目前,通信业务数据量越来越大,并且分布散乱、存储形式多样化,而原有的系统都是各公司根据自己的需求建立的小型系统,统计的标准多样化,数据的存储形式也不统一。如数据源可以是Oracle数据库、关系型数据库、纯文本数据、XML文件等,这就给编码增加了难度。因此首先要搜集通信企业各分公司的数据,然后将分公司的数据从Oracle数据库或Excel表格等数据源中抽取到企业数据库中,然后再进行ETL转换。首先对以前的数据代码进行统一规范,然后建立数据维表进行规范,最后按照清洗规范对数据进行ETL。ETL的设计和实施约占在整个项目中工作量的60%~80%,这是从众多实践中得到的普遍共识[6]。
2.5建立olap多维数据集根据通信线路状态统计系统的需求分析,可以将数据仓库划分主题,根据不同的主题建立相应的多维数据集:由于在线路状态统计过程中要统计分析的报表较多,因此数据仓库按照要统计分析报表的类别来划分多维数据集,大致划分为以下3个:(1)端口统计模型分析,常用报表是使用频率较高的报表,如端口类型、端口稳定性、端口状态、端口在线时长等。在此多维数据集中有45个维度。如端口维度、日期维度、区域维度、设备维度、端口状态维度、端口稳定性维度、终端类型维度、实际激活模式维度、端口黑名单维度、上行实际速率分段维度、下行实际速率分段维度等。(2)小时类统计模型分析,小时类报表是按小时统计分析的报表,如误码1小时统计、掉线1小时统计等。在此多维数据集中有3个维度,分别为:日期维度、设备维度、区域维度。小时类统计模型如图2所示。图2小时类统计模型主题分析(截图)图3测试统计模型主题分析(截图)(3)测试统计模型分析,测试类报表时统计测试数据的报表,如线路测试故障统计、测试端口数统计、TOPn测试端口统计、测试策略统计等。在测试统计模型中有8个维度,分别为:测试线路维度、日期维度、区域维度、设备维度、测试结论维度、测试结论分段维度、测试项目维度和测试策略维度。测试统计模型如图3所示。本文利用SSAS(MicrosoftSQLServer2008Analy-sisServices)建立多维数据集。首先建立数据源与数据源视图,然后建立多维数据集模型,定义维度与事实度量,建立多维数据集。
3通信线路状态统计系统的实例分析
商务智能的前端产品负责直接面向用户,将用户的请求转发给服务器层、数据层,同时也向用户展现所需信息。下面将对通信线路状态统计系统进行实例分析。在实例中,分析结果采用重庆宏信软件公司的极光商务智能工具(ABIS)进行前端展示,并利用表格和图形等形式将分析的结果直观地呈现给最终用户,使用户更容易理解。
3.1端口状态统计分析端口稳定性统计趋势报表用来显示一段日期的一定范围内的xDSL端口稳定性的统计变化趋势如图4所示。行元素选取“端口稳定性”,列元素选取“端口数”和“日期”,其中“日期”选取“日”为粒度。端口稳定性有“稳定”、“有风险的”、“不稳定的”和“未标明的”的4种状态。图表中选取2011.01.24-2011.04.30的数据。其中图形还可以选择用柱形、曲线、饼图和密度图等多种形式展现出来。由图表所展示的统计信息可看出,在4种端口稳定性中,变化趋势是比较清晰的,没有交叉。“未标明的”端口数目明显比其它几种的多一些且呈逐渐上升的趋势,说明端口数目在不断地增加,客户越来越多;“稳定的”端口呈先升后降的趋势;“有风险的”端口和“不稳定的”端口是比较少的,说明整个端口稳定性是维持在一个相对理想的状态。运营商可针对以上统计分析,对端口稳定性的运行和维护做有效的调整,以保证为广大用户提供更完善的服务。
3.2小时类统计模型分析掉线1小时统计趋势报表用来显示一天每小时的一定范围内的xDSL端口的掉线端口数。结果如图5所示,行元素选取“异常掉线端口数”、“异常掉线端口数(%)”和“设备”,列元素选取“年-月-日-小时”。图表中所选为2011年4月30日的数据。由图表所展现的统计信息可以看出,在一天内各时段的异常掉线端口数中,凌晨2点以前的掉线端口数几乎可以忽略不计,从凌晨2点开始异常掉线端口数呈上升的趋势,中午12时达到顶峰,然后呈下降的趋势;而一天内各时段的异常掉线端口数(%)基本维持在0.5%以下。一天内各时段的异常掉线端口数变化趋势可以提前让运营商对运维人员做出相应的调整;而一天内各时段的异常掉线端口数(%)说明了掉线端口数整体上维持在相对合理的水平。
3.3测试端口数统计分析测试端口数统计趋势报表显示一段日期的线路测试次数的统计变化趋势。如图6所示,行元素选取“测试线路数”,列元素选取“日期-年-月-日”,图表中所选为2010.8.1到2010.8.7的数据。分析这几日的线路测试次数的变化,借助趋势图可以看出测试线路测试次数的统计变化趋势。如此,可以根据趋势图来预测测试线路变化情况,及时做出相应的调整。
4结束语
本文的研究意义在于将数据仓库与OLAP技术应用于通信线路状态统计中。通过建立数据仓库和多维数据集,为通信企业分析提供准确的信息,更为后续的数据挖掘等分析提供准确、更具有针对性的数据。下一步的工作重点除完善数据仓库和OLAP模型,还将引入数据挖掘技术来分析通信线路状态的潜在规律等。