美章网 资料文库 物流数据动态挖掘模型研究范文

物流数据动态挖掘模型研究范文

本站小编为你精心准备了物流数据动态挖掘模型研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

物流数据动态挖掘模型研究

《图书馆学研究杂志》2015年第十三期

1云计算与动态数据挖掘概述

1.1云计算概述Amazon(亚马逊)、ogle(谷歌)等公司于2006年8月提出了“云计算”的概念,自此以来,云计算就受理论界与企业界的追捧,并在各方面得到了广泛的应用。所谓云计算,是一种利用互联网实现随时随地、按需、便捷地访问共享资源池的计算模式,能为不同类型终端用户提供计算和存储功能的一个服务传递过程[8]。云计算是一种可变的、实时的、虚拟化的资源,将大量的海量数据的计算任务分割成众多的微量计算任务,通过网络化的、人人参与的并行计算形式,为互联网上的用户提供服务。云计算的关键技术包括:海量分布式存储技术、数据管理技术、并行编程技术、虚拟化技术、云计算平台管理技术、分布式资源管理技术[9]。云计算作为大数据时代的IT基础,具备以下基本特征:按需自助服务、广泛的网络访问、计算资源池化、快速的可伸缩性、可度量的服务。目前,云计算有三种典型服务模式:(1)软件即服务(softwareasaservice,SaaS)、平台即服务(platformasaservice,PaaS)、基础即服务(infrastructureasaservice,IaaS),如图1所示[10]。作为一个动态的计算体系,云计算具备非常明显的优势,云计算模式已成为众多企业构建信息系统的首选[11]。以云计算为基础来构建信息服务平台,提供应对多种服务要求的计算环境,数据信息存储能力、数据安全性、数据资源利用率、用户定制化需求等,均能得到有效保障和提升,通过网络访问其相应的服务资源,能够最大限度地实现资源共享和业务协同,真正体现按需服务的理念[12]。

1.2动态数据挖掘概述目前,越来越多的数据以时间序列的形式存在,动态性、实时性、海量性、高维性是这类数据的典型特征。原有的针对静态数据的知识发现与获取技术已难以有效处理和分析动态数据,无法很好地获得新颖性知识,因此动态数据挖掘技术应运而生。所谓动态数据挖掘,是指从海量时间序列数据中寻找规律和知识的数据挖掘方法,是集过去、现在与未来于一体的动态过程[13]。假设在一动态数据源(DynamicDataSource,DDS)中存在三类数据:历史数据(Dataold)、当前数据(Datacurrent)和后续新数据(Datanew),动态数据挖掘就是将经过筛选的历史数据和当前数据同时结合后续新数据进行分析,动态检验后续新数据的特性,从而提取出其中有意义的、新颖的、有价值的、关键的知识与信息。动态数据挖掘的过程基本上包括动态数据采集、动态数据处理、数据挖掘、挖掘评价等几个阶段[14]。其中,动态数据采集是从动态数据源中获取历史数据、当前数据和后续新数据;动态数据处理是动态处理动态数据采集过程传来的动态实时数据,如消除数据噪声、数据降维处理、数据缺失处理、数据类型转换、提取数据特征等;动态数据挖掘是利用相应的动态挖掘算法与技术,如数据流挖掘、分形数据挖掘、联系发现技术等,得到这些数据中所隐含的必要知识;挖掘评价是采用后续新数据对挖掘结果进行评价与检测,如果不符合要求,则需要通过调整动态数据采集或动态数据处理来重新挖掘,以真正挖掘出用户感兴趣的知识。

2基于云计算的物流数据动态挖掘模型

随着计算机技术和网络技术广泛应用于物流信息系统,在物流活动各环节产生的物流信息,多以时间序列的形式存在,保证了现代物流的实时交互性,既反映了当前的物流业务活动,又能通过相应的方法来预测将来物流业务活动的发展变化趋势,具有显著的动态性,是典型的动态数据。这些动态数据源既为物流企业作出合理经营决策提供了可行支持,也增加了物流企业作出合理经营决策的难度,如果不能对这些数据进行深度挖掘,这些数据还有可能成为物流企业作出合理经营决策的负担与累赘,形成“数据恐惧”。动态数据挖掘技术的存在,为解决“数据恐惧”提供了可能性。通过对动态物流信息源中的历史数据、当前数据和后续新数据的动态挖掘,能够发现后续新数据的规律与知识,这些所发掘的新规律与新知识,应用于物流企业未来业务的维系、拓展与优化,有利于物流企业提出针对性的业务规划和商务计划,促进物流企业竞争力的提升。正如前文所言,如果只从一个企业内部来建立物流数据动态挖掘系统,投资较大且需配置专业技术人员,将阻碍动态数据挖掘技术在物流企业的广泛应用。不过,令人鼓舞的是,目前已有很多物流企业搭建了基于云计算的信息服务平台,并将物流信息分析工作转移到网络中的“云端”,对大规模物流数据进行分布的、及时的处理与分析[15]。这就为建立基于云计算的物流数据动态挖掘平台奠定了坚实的行业基础。

2.1结构框架基于云计算的物流数据动态挖掘模型架构分为7层,分别是云计算环境层、动态物流数据采集层、动态物流数据处理层、动态物流数据挖掘层、业务应用层、交互层、用户终端层,自底向上每层透明地为其上层服务,如图2所示。(1)云计算环境层云计算环境层处于最底层,是整个系统的支撑平台,包括并行编程环境、分布式文件系统、分布式系统管理,提供分布式并行数据处理、分布式数据海量存储以及超强的分布式计算能力。云计算平台采用分布式对数据进行存储,并以冗余存储方式确保数据保存多份副本;同时利用分布式数据处理与虚拟化技术对动态数据挖掘算法进行综合处理,实现计算资源的自主分配,完成动态数据挖掘计算能力的并行实现,便于用户对动态数据挖掘算法的调用,从而为服务的提供者与服务对象提供一个基础的云环境。目前,常见的云计算数据存储技术主要有Hadoop团队开发的开源HDFS(HadoopDistributedFileSystem)和ogle开发的非开源GFS(ogleFileSystem),采用Map/Reduce编程模式,特别适用于产生和处理大规模的数据集[16]。分布式文件管理模块利用分布式文件系统HDFS来实现物流数据的存储,将海量物流数据文件先分块,分布存储在计算机集群上的不同节点,并提供高可靠的容错功能。对外部客户机而言,HDFS就像一个传统的分级文件系统,是基于一组特定节点构建的,包括一个NameNode(主节点)和多个DataNode(数据节点),前者提供元数据服务,后者提供存储块。HDFS可以创建、删除、移动或重命名文件等等。HDFS发挥Map/Reduce可伸缩性的优势,既可为动态物流数据采集层提供各类动态数据,又可为业务应用层存储相应的用户数据,构建出具有极高容错性、可靠性、存储量的分布式文件系统。(2)动态物流数据采集层该层主要是实现物流数据的动态采集。针对各物流节点企业产生的历史数据、当前数据和后续新数据,包括企业物流信息系统产生的运输数据、搬运数据、装卸数据、采购数据、加工数据、储存数据、包装数据、配送数据、客服数据和其他数据,同时也包括物流信息系统采集到其他系统或平台的、与本企业业务有密切联系的数据,如政策信息、市场信息、竞争对手信息等进行采集。动态物流数据的采集方法是:①对于历史数据和当前数据,可以采用传统的数据集成、数据转移方式,一次性提取完成;②对于后续新数据,则应采集数据源发生变动的那部分数据,需要用到变动数据捕获技术(ChangeDataCapture,CDC)[17]。变动数据捕获方法只传递发生改变的数据,甚至用户可以提出具体要求,对信息进行有效地过滤,为用户提供最及时准确的信息数据。其可用技术既包括时间戳法、快照法、全文比对法等,即数据静态捕获技术,也包括触发器法、变更轨迹表法、辅助程序法、DBMS日志法等数据动态捕获技术[18],从而实现动态物流数据的快速、全面、准确的收集。(3)动态物流数据处理层该层主要是实现对采集到的动态物流数据进行处理,为数据挖掘提供数据源。动态物流数据处理层的主要工作包括:对采集到的动态物流数据中的缺失值数据、冗余数据、噪声数据等进行处理,将非结构化、半结构化的数据进行转换;然后将结构化的数据进行过滤,删除无效的数据,以提炼出有价值、有意义、有时效的数据;最后进行动态物流数据抽取,通过对动态物流数据的相关性和关联性检测,从中抽取有意义的数据,将抽取结果存放到动态数据仓库之中,供后续的动态物流数据挖掘模块进行数据挖掘。动态物流数据处理方法包括:①对于历史的和当前的物流数据,可以采用传统的数据预处理技术;②针对动态物流数据源中的后继新数据,则需要利用实时ETL技术。实时ETL(ExtractTransformLoad,抽取、转换、装载)是指先实时抽取业务数据源中产生的数据,然后对其进行清洗,最后基于预先定义好的数据仓库模型,在保证数据的完备性和一致性的前提下,通过转换,将数据加载到数据仓库中去,为动态数据挖掘系统提供更有效的数据支持[19]。通过实时ETL模块,可以实现数据的预处理,并保存在动态数据仓库中,提供给动态物流数据挖掘层。(4)动态物流数据挖掘层作为整个构架的核心,动态物流数据挖掘层的主要任务是实现各种任务过程中算法的并行化,使用动态数据仓库中已经过预处理的数据集,选择既定的算法进行动态数据挖掘,并将任务提交到云计算环境层进行运算,同时将动态挖掘结果返回给业务应用层。(5)业务应用层根据用户提交的业务请求,基于决策知识库,业务应用层能够对完成业务所需的子业务进行调用、管理,包括算法库的创建、扩充以及算法的调用和注销,为每一个算法创建控制块和算法参数,并且对业务状态进行监控、管理,以协调其他各功能模块实现系统目标。业务调度管理功能可自动选择与任务关联的算法,根据用户需求自动调用动态物流数据挖掘层的多个模块,实现对动态物流数据的挖掘,比较不同挖掘方法所得到的结果,并使用未来数据集中的数据验证、评估相关结果,然后将挖掘结果返回给交互层。(6)交互层该层主要提供用户管理、数据输入、结果展示。用户管理包括:用户身份的识别与权限设置、用户注册、用户登录、用户注销、用户费用、用户需求提交管理等日常管理工作。此外,该模块与云管理服务器连接,给用户提供分布式云服务。

2.2基于云计算的动态挖掘算法完成动态物流数据的挖掘任务,需要通过动态数据挖掘算法模块来实现。动态数据挖掘算法模块的核心是建立基于MapReduce编程模型的并行数据挖掘算法库,无论是传统的挖掘算法,如回归分析、聚类分析、判别分析、决策树、关联规则、人工神经网络、遗传算法、模糊方法、粗集方法、可视化技术等,还是较新颖的挖掘算法,如联系发现和经验模态分解技术、分形数据挖掘、联机分析挖掘、数据流挖掘等,都可以实现优化升级以及适当扩充。基于各类算法的MapReduce并行化,挖掘隐含在动态物流数据流中的有价值信息,用于完成各种数据挖掘任务。例如,基于云计算的FP-Tree频繁项集挖掘算法步骤如下:①通过FP-Tree对物流数据流进行频繁项集挖掘,要在Hadoop计算平台上进行分布式运算的时候,首先要将处理的海量数据上传到Hadoop的分布式文件系统中;②用户可以通过重写Map和Reduce函数实现自己需要的功能。一般地,基于云计算的FP-Tree频繁项集挖掘流程为:由Namenode将存储在HDFS中的物流数据流划分为N个不相交的数据分块,然后将数据分块分别发送到执行挖掘操作的M(M<=N)个Datanode中,Datanode接收到挖掘指令后,独立地使用FP-Tree算法进行频繁项集的挖掘工作,从而获得局部频繁项集;③汇总各个Datanode获得的局部频繁项集,得到全局的候选频繁项集;对物流数据流进行再次扫描,获取最终的频繁项集。整个挖掘过程涉及到两次Map/Reduece计算。

2.3运行模式基于云计算的物流数据动态挖掘模型运行模式为:(1)企业用户通过用户管理模块进行授权认证,申请使用基于云计算的物流数据动态挖掘平台;(2)云计算服务器通过用户管理模块进行授权认证,申请为基于云计算的物流数据动态挖掘平台提供服务;(3)用户终端经由用户管理模块登录后,提交挖掘服务请求,经业务调度控制模块利用已有信息控制生成配置文件,调度适合用户需求的动态数据挖掘算法和模式,并从动态数据仓库中提取数据,做好数据准备,从而进行物流数据的动态挖掘;(4)按照用户的要求将挖掘结果以可视化的方式提交给用户;同时,将挖掘结果存入决策知识库,然后保存在分布式文件系统,以用于日后挖掘结果的评价与分析。

3结语

依赖于云计算平台提供的低成本、高扩展性、高性能的分布式并行计算环境,基于云计算的物流数据动态挖掘平台可被用来开发高性能的应用程序,既具有云计算的所有优势,又具有强大的动态数据挖掘能力,使得海量物流数据存储和分布式动态挖掘成为现实。其价值在于:可以进行分布式并行动态数据挖掘,实现高效实时挖掘;在很大程度上提高了大规模处理数据的能力;可以降低动态数据挖掘应用的门槛,使海量物流数据挖掘需求得到了满足;处理成本低廉,大量企业无需负担日益高昂的数据中心管理成本,即可以注册使用该平台,并大大减少其应用成本。基于云计算的物流数据动态挖掘平台有明显的优势,本文仅提出了相应的模型架构,具体的算法实现、工作机理等,还需留待下一步的深入研究

作者:张玉峰 曾奕棠 单位:武汉大学信息管理学院教授 武汉大学信息管理学院博士生