美章网 资料文库 传统统计数据和大数据探究范文

传统统计数据和大数据探究范文

本站小编为你精心准备了传统统计数据和大数据探究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

传统统计数据和大数据探究

《电信快报杂志》2016年第9期

摘要:

传统统计数据与大数据之间的演变历史、数据特征等方面展开讨论,厘清两者之间存在的千丝万缕但又千差万别的联系,提出传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态的论断,指出两者在数据分析思维方式上存在巨大差异,并对数据质量管理内涵、全周期数据质量保证等问题提出不同的解决思路和方案。

关键词:

传统统计数据;大数据;数据分析;数据质量

0引言

传统统计数据的内涵在于揭示数字背后信息与现实世界的关系。大数据是指巨量数据,是无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从传统统计数据到大数据的持续演变导致在理论层面大数据内涵复杂,并与传统统计数据在信息界限上概念模糊。从传统统计数据到大数据不仅是量的积累,更是质的飞跃。厘清传统统计数据与大数据之间的内涵辩证关系,是有效利用数据的基础和关键。

1传统统计数据向大数据演变的动力

信息技术的进步为传统统计数据向大数据演变提供了物质和技术基础。随着互联网的日益发展,每一次网络存储技术的进步都使信息的生产、存储、传输成本大幅度降低,而流通的范围、深度、速度则显著提升。JimGray的新摩尔定理认为,每18个月全球新增信息量是计算机有史以来全部信息量的总和,新摩尔定律以信息量的维度确定了数据化演变信息的节奏。这种趋势导致的基本形态就是数据信息空前丰富,大数据成为了研究和利用热点。信息需求多样化与个性化是传统统计数据向大数据演变的基本动力。数据最终是为信息需求服务的,用户信息价值最大化才是数据应用的关键所在。在数据化趋势下,随着人们认知实践与需求状态的变化,数据一方面从满足基本特定信息需求到利用复杂的数据属性解析出多样化信息需求转变,另一方面从被动满足简单需求到主动发掘复杂有效需求,并探知用户个性化信息需求转变。这两方面成为传统统计数据项大数据内涵演变的基本动力。相应地,数据内涵也从朴素的信息真实业务逻辑向满足复杂需求的数据化逻辑迁移。随着信息技术的发展和用户需求的变化,信息效率价值的实时化及数据泛滥造成数据噪声增强和有效信息稀缺现象,大数据应运而生。传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态。

2传统统计数据与大数据的数据特征差异

数据量增多是人们区别传统统计数据与大数据的第一个认识。传统统计数据数据量小,以MB、GB、TB等为存储单位。大数据数据量大,一般以PB、EB、ZB等为存储单位。但这两者之间特征区别并不仅仅是体量,还包括数据类型、研究对象的范围、信息视角等方面。

2.1传统统计数据与大数据的数据类型对比

传统统计数据是一种结构化的标准数据。其数据类型单一,主要以结构化、体量小、标准化、价值密度高及周期化数值为特征,数据产生和变化的速度慢。其数据特点是朴素真实、简单有限、准确性高及被动有用性。大数据统计范畴扩大、数据类型复杂,其中包括:a)非结构化非标准数据,如动态实时时序数据。b)半结构化数据和非结构化数据,如文本、图像、视频等。c)现有的结构化数据,如传统统计数据。其数据模型具有复杂多维的特征,统计结果多是非精确多种相关性趋势数据。大数据具有4个V基本特征,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低),且具有来源多样、实时、多元的信息化特点。这些特点导致数据在产生、获取、存储、传输和计算过程中,因体量大、快速多变易产生冲突和不一致,人工很难检测和修复。

2.2传统统计数据与大数据的研究对象范围不同

传统统计数据的研究对象是宏观视角下有限的随机样本数据。随着信息化的发展,实践中产生大量冗余沉淀数据,这一时期经过清洗的全样本数据是数据挖掘的研究对象。而大数据面对的则是原生态全样本数据,也就是所谓的总体数据。从随机样本数据到经过清洗的全样本数据再到原生态总体数据,数据内涵总体信息视角从宏观向中观和微观扩散。研究对象范围向宽度和深度两个方向不断扩展,不断深入系统微观的多维度个体感知,信息能力和价值也不断提升。这种转变来自技术和需求的驱动,新型数据处理技术及需求获取能力成为演变的关键因素。

3大数据相对传统统计数据分析方式的变革

数据中蕴含的宝贵价值成为人们存储和处理数据的驱动力,数据分析是实现数据价值的必要途径。由于传统统计数据与大数据在体量、结构、内涵等方面有着本质的区别,所遵循的数据分析理论基础、分析思路、相关技术也不同。

3.1传统统计数据与大数据数据分析的理论基础

对传统统计数据进行数据分析的理论基础是分布理论,以概率为保证,即根据样本去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,分析过程是“假设—验证”基础上的“定性—定量—再定性”。对大数据进行数据分析是以全体数据为基础,以数据信息相关为保证,其逻辑关系是“实际分布—总体特征—概率判断”,可以不受任何假设的限制去寻找关系、发现规律,分析过程是“定量—定性”及“发现—总结”重要数量特征和关系基础上的定量回应。

3.2传统统计数据与大数据数据的分析思路

传统统计数据价值的实现路径为“数据到信息再到知识和智慧”。传统统计数据分析着力于经典严密封闭系统的精确性和因果关系的探索,找到事物属性之间的因果关系,比较容易实现。对于开放复杂的巨系统,传统的因果分析难以奏效,因为系统中各个组成部分之间相互有影响,可能互为因果,因果关系隐藏在整个系统中。因果关系本质上是一种相互纠缠的相关性。大数据数据分析无法检验逻辑上的因果关系,不能致力于寻找真正的原因。Mayer-Sch觟nberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。因此,大数据分析逻辑体现为走“数据直接到价值”的捷径。大数据数据分析关注事物相关性认知分析,所谓相关性是指两个或两个以上变量的取值之间存在某种规律性,即对数量巨大的数据进行统计性的搜索、比较、聚类、分类等分析归纳。相关分析的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。

3.3传统统计数据与大数据的数据分析处理技术

进行数据分析需要相应的数据分析处理技术以及技术人员的全力参与。数据分析领域面临的主要矛盾是快速增长的数据信息需求与有限统计资源和滞后数据处理能力的矛盾。信息技术应用成本的低廉化和性能效率的聚变成为数据需求和质量要求快速增长的基本动力。传统统计数据的分析和处理遵循一般的关系数据库的数据分析和处理技术,技术人员经过一定的训练即可胜任。对大数据进行分析和处理需考虑以下技术因素:a)数据清洗。大数据价值密度低、冗余数据增多、垃圾数据泛滥,大数据清洗需要专业和细致。数据不能清洗过细,否则会增加数据清洗复杂度,甚至有可能过滤掉有用信息。数据也不能清洗过粗,要保证数据筛选的效果。b)以MapReduce(一种编程模型)和Hadoop(Apache基金会所开发的分布式系统基础架构)为代表的非关系型数据库的非关系型数据分析技术,因其具有良好的横向扩展性,在大数据分析处理中得到广泛应用。c)要深入分析数据,数据分析人员既要熟悉数据分析技术和工具,又要具备相关领域的专业知识。

4传统统计数据与大数据的数据质量内涵

高质量数据是进行数据分析的前提和基础,是数据发挥效能的保证。传统统计数据数据质量以有限信息逻辑的因果性、确定性、清晰且高度的结构化为主要特征,主要关注数据自身本源的质量问题,例如准确性、完整性和客观性。质量标准至少应该包括指标解释(含义、范围、口径)、数据特征、调查方法、统计误差、获取时间、频率及渠道等方面的内容。大数据以既定边界内总体数据系统相关性的随机、自身的不确定性以及总体的非结构化为特征。由于数据质量问题在大数据环境下会被不断放大,因此,大数据主要关注数据可信与溯源等非数据本源性质量问题,即数据资源产生后在传输、存储和应用过程中产生的突显问题。下面重点从流程和管理两方面分析传统统计数据和大数据所面临的数据质量的挑战及应对措施。

4.1从流程视角看数据质量保证

从流程的角度(即从数据生命周期角度)来看,可以将数据生产过程分为数据采集、数据存储和数据使用三个阶段,三个阶段对传统统计数据和大数据的质量保证提出了不同的要求。

1)数据采集过程中数据质量保证问题

数据采集阶段是整个数据生命周期的开始,这个阶段的数据质量对后续阶段的数据质量有着直接的、决定性的影响。传统统计数据数据量小,通过编写简单的匹配程序,甚至是人工查找即可实现多数据源中不一致数据的检测和定位。大数据由于数据来源复杂,数据之间存在着冲突、不一致或相互矛盾的现象。因此,需要在数据获取阶段保证数据定义的一致性及元数据定义的统一性,以保证数据质量。

2)数据存储过程中数据质量保证问题

数据存储是实现高水平数据质量的基本保障,如果数据不能被一致、完整、有效的存储,数据质量将无从谈起。传统统计数据以结构化数据为主,主要采用传统的结构化数据存储架构(如关系型数据库)进行数据的存储。大数据数据结构多样、数量庞大、数据结构复杂、变化速度快,需要使用专门的数据库技术和专用的数据存储设备进行大数据存储,以保证数据存储的有效性,方便对数据进行快速读取。数据库一般采用分布式文件系统和分布式并行数据库(如HDFS〔分布式文件系统〕、BigTable〔Google设计的分布式数据存储系统〕等),在数据存储过程中,数据格式的转换非常关键和复杂,要根据大数据结构的要求和特点合理设计数据存储和使用规则。

3)数据使用过程中数据质量保证问题

数据价值的发挥在于对数据的有效分析和应用。传统统计数据的使用需要遵从关系型数据的完整性约束和数据一致性保证技术要求。由于大数据使用人员众多,数据规模庞大、变化速度快,对数据的处理速度要求较高,很多时候需要同步、不断地对数据进行提取、分析、更新和使用,因此需要保证数据使用的一致性。

4.2从管理视角看数据质量保证

传统统计数据一般由业务部门负责掌管数据,IT部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同IT工具,而IT人员在运用IT技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为了更好地利用大数据,保证大数据的质量,企业高层管理者应给与重视和支持,需在高层配备专业数据管理人员。在大数据生产过程的任何一个环节,企业都应该配备相应的专业数据管理人员,如由专门人员负责记录定义并记录元数据,收集原始数据,建模、提取并利用隐藏在大数据中的信息。

5结束语

传统统计数据和大数据是数据科学发展过程中由于技术的发展和客户需求的多样化、个性化而必然出现的数据阶段。由于两者之间关系不清,界限模糊,采集、分析、处理等技术多样,难度大,因此,从业者难免存在模糊认识和畏难情绪。本文从两者的演变历史、数据特征、数据分析和质量管理等方面对两者的异同进行辨析,指出传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态,大数据从广义上来讲包含了传统统计数据。试图通过对两者的辨析为从业者提供一个辩证和清晰的思路。数据的分析应用无止境,任重而道远。

参考文献:

1刘军华.大数据视野下统计数据质量演变的信息回归、分布与趋势[J].统计与信息论坛,2015(9):7-11.

2祝君仪.大数据时代背景下统计数据质量的评估方法及适用性分析[J].中国市场,2015(29):41-42.

3李国杰.对大数据的再认识[J].大数据,2015(1):1-9.

4程学旗,靳小龙,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.

5宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报:社会科学版,2013(5):38-43.

作者:李敬华 贾蓓 李倩茹 单位:西安通信学院