本站小编为你精心准备了银行业务数据库导入的探析与规划参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1加载策略
源数据的获取将依赖于数据的生成和更新周期,目前与源数据层约定的获取接口为规定的数据库接口,由DataStage通过数据库接口,从各个源系统获取源数据,在ETL服务器上,以数据文件或命名管道文件的形式,将数据加载到数据仓库中央数据库中。
在经过初步的转换处理后,数据将首先加载进入数据仓库临时数据区,在临时数据区的基础上完成数据的进一步清洗、汇总计算和转换处理,并最终生成数据仓库的物理模型数据,相关的数据集市和OLAP立方体,以及其他为数据输出而准备的中间数据。在整个ETL过程中,需要自动化管理ETL任务调度和控制以及必要的数据质量检查模块。
2相关层次
数据导入是在源数据中经确认的数据进入数据仓库数据服务的数据获取和数据处理的中间层,是重要的数据处理环节。以下将结合ETL过程的几个重点步骤,对数据导入的数据处理过程进行详细的描述:
(1)确认源数据的确认是指根据针对本系统的业务需求,来定义包含相应的数据源的物理表/数据结构的过程,这些表在进行信息需求分析时需要确定下来,即确定需要使用源系统的哪些数据来满足业务需求。
(2)映射数据的映射(Mapping)是指确定操作源数据和数据仓库数据库中数据存储之间的物理映射关系,简单的说就是将已确认的源数据与本系统数据库中的数据相对应起来,供ETL参考。
(3)获取为了把源数据加载到数据仓库数据库中,首先需要先获取这些数据。一般来讲,数据获取包括两种方式:数据源主动(PUSH):即数据源主动定时将相关数据吐到ETL服务器上。再由ETL服务器对数据进行必要处理(转换、清洗)后加载到数据库;ETL服务器主动(PULL):即ETL服务器主动到数据源中获取数据。考虑到本系统的主要数据源是业务系统的镜像系统或Snapshot,数据获取过程将采用ETL服务器主动(PULL)的方式,即业务系统完成Snapshot或镜像处理后,由ETL服务器主动到业务系统的镜像系统或Snapshot中获取数据,而后直接加载入数据仓库数据库中。
(4)转换转换工作主要分为两部分:加载前的转换:主要是针对数据格式、代码映射以及数据类型转换等。加载后的清洗和转换:主要是针对明细数据进行汇总计算以及异常数据的过滤。
(5)加载数据加载是将完成抽取、转换后的源数据加载到数据仓库中央数据库中,数据加载过程需保证加载的快速、稳定,并且考虑到数据加载的维护,本次源数据向数据库加载将仅采用DataStage的Teradata专用组件TeradataEnterprise来完成,数据后续处理(产生汇总表,多表关联等)的工作将使用TeradataSQL来完成。
3数据质量管理
数据质量对任何数据仓库来说都是非常重要的,决策支持的质量往往是取决于查询所选择的数据本身的质量。一般地,数据质量问题主要来源于以下几种情况:
1)源数据质量问题:源系统中的数据信息不真实、不符合业务规则或数据约束条件,或者源系统导出的接口数据文件不符合接口标准或格式等;因此在数据仓库建设中仍要采用多种手段进行数据质量的检查和管理。
2)数据从源系统到数据仓库的抽取、传输过程中造成数据失真、丢失,或在整合过程中对数据的取舍存在误判;这类问题主要来自于ETL体系本身,可以通过各类技术手段进行避免。
3)从数据仓库到前端展现存在的问题,包括代码错误、算法错误,或者对业务问题的理解错误等。这部分主要是业务逻辑与统计口径不准确所致,并不能代表数据本身的质量问题。数据质量管理包括:检查规则管理、数据质量检查模块以及数据质量检查结果展示与管理。检查规则管理是通过数据库中建立一个数据检查的规则库,用于各数据质量检查模块进行数据检查的依据。
数据质量检查模块是分散在数据导入即ETL的各个环节中,数据质量检查包括文件级检查、记录级检查以及业务指标检查。文件级检查的主要内容包括:文件大小检验:确保数据在传输过程中没有缺失、损坏,在本系统中,就是保证数据由数据源到数据加载机(ETL服务器)传输的完整性。文件格式检验:接口数据文件的格式是否是按照约定的格式进行,如定长或变长、分割符的约定等。
记录级检查的主要内容包括:数据类型与格式检查主外键及关联检查编码映射检查数据值域检查基本业务规则检查记录集合检查,数据仓库临时数据区数据与一期ODS的数据比较;业务指标检查的主要内容包括:比较同一业务指标在临时数据区、数据区及OLAP的计算值,判断数据在转换过程中是否遗漏;利用来自其他渠道的业务指标参考值,与该指标在数据区或OLAP的计算值相比较,判断数据的正确性;在数据质量检查过程中,如果发生了数据异常和错误现象,则需及时通知相关人员进行相应处理,甚至包括数据文件的二次生成或重新传输的过程;如果确定源数据本身有误,则需要通知源数据方进行修改或更正,对数据仓库系统来说,不得修改任何记录。
作者:王彦慈单位:河南商业高等专科学校