美章网 资料文库 协同任务的资源服务序列挖掘范文

协同任务的资源服务序列挖掘范文

本站小编为你精心准备了协同任务的资源服务序列挖掘参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

协同任务的资源服务序列挖掘

《计算机集成制造系统杂志》2016年第三期

摘要:

协同任务系统的应用越来越广泛,为提高组织之间资源服务的协同性,挖掘资源服务的时序关系极为重要,而目前的研究主要集中资源服务组合以及简单聚集上。为此,面向协同任务系统,从工作流模型和运行数据两个层面,提出一种资源服务时序挖掘方法。首先,通过分析工作流模型,依据资源服务间存在的任务相关性,求解依赖关系较强的资源服务集,并从中获取初步的资源服务序列,即资源服务链;为提高资源服务时序的重用性,以初始资源服务链为聚类中心,对其进行扩展后,对运行数据中每个新到达的扩展链,求解相似度,最终得到修正后的聚类中心。最后,通过实验和分析验证方法的可行性。对提高资源选取效率、提高资源可用性、利用率有积极的意义。

关键词:

协同任务;资源服务序列;工作流;挖掘

1问题的提出

当前,除典型的制造业外,多组织参与并协作完成一项任务的应用模式已经渗透入更多领域[1],公共管理、合作科学研究、电子商务、医疗等领域也逐渐表现出更多的协同性。伴随着云计算、物联网、移动互联等新兴信息技术和应用模式的快速发展,这类协同任务系统一般通过服务平台,例如云制造服务平台,在工作流技术的支持下,集成和协调各组织的资源,最终完成共同的任务[1],如图1所示。广泛分布的各类资源通常被封装成服务,为业务过程所使用。伴随着业务活动的交互,资源服务所形成的序列称作资源服务链(ResourceServiceChain,RSC)。对资源服务链进行挖掘,揭示资源服务的时序模式,不仅可以从全局管理和优化分布的资源服务,而且作为更大粒度的组合服务,资源服务序列还可以提高该领域的资源选取、资源配置和调度的效率,在分布的业务环境下,提高工作流的执行的成功率,进而提高组织间的交互效率。对资源服务链的挖掘很难通过建模或者建立评价体系的方法进行。这是因为各个领域的资源种类都十分庞杂,如制造业,工作流模型或者资源服务时序模型中通常只能描述资源服务的类别而非实例,资源服务的可用性需运行阶段才能确定;同时,资源服务之间还存在着共存、排斥、支持和控制等复杂的依赖关系[2],从运行数据或历史数据这些成功案例中挖掘资源服务序列要比模型分析更切合实际;而通过建模的方法分析资源的静态属性并汇聚资源,是一种静态分析,缺少动态性和适应性的考虑。以制造业这一典型的协同任务系统为例,如家电制造行业,其资源服务序列需要行之有效的挖掘方法,才能准确地反映客观现实的业务情况。目前,对资源(服务)的挖掘主要集中在对资源的简单聚集上,对资源服务序列的挖掘研究仍显不足。因此,本文针对协同任务系统提出一种资源服务时序挖掘方法,获取最为频繁出现的资源服务链。该方法对工作流模型和运行数据进行两阶段分析,并提出相应的挖掘算法。依据工作流模型,通过资源服务之间的相关性,可得到初步的资源服务链集(InitialResourceServiceChainSet,InitRSCS),再通过挖掘工作流运行数据更新InitRSCS,获得最终的资源服务链集合。该方法可更准确地体现组织之间资源服务的协同方式,进而以时序的方式为资源服务选取、组合、推荐和调度提供更加准确的资源服务聚集。

2相关工作

协同任务管理系统通常指基于任务的平台系统,通过优化过程过程管理与增强知识管理等途径辅助多人或者多组织完成协作任务,从而实现企业的资源共享,提升企业的核心竞争力。目前,在云计算、物联网、移动互联等新兴信息技术的支撑下,协同任务系统正在向服务业务模式转型。对其资源挖掘的研究,主要集中在制造业,并大多以资源集成为目的。因此,下面重点对协同制造系统中资源(服务)集成方法进行综述。制造即服务是制造领域的云计算,其资源具有分散性、动态性、互操作性、实时性、协同性和服务性等特点,对制造资源服务的集成更加重要,目前的方法也很多。基于K-Means的资源集成方法仍然是最为常用的数据挖掘方法,但大多用于云计算环境中的计算资源[3-5]以及数据资源的分析[6-8]。基于agent的方法中,通常把作为资源和行为的描述,如文献[9]基于此研究了虚拟资源管理方法并提出了一种基于的框架以及相应的资源聚集方法。此外,基于框架的方法也常用于资源集成。文献[10]提出了一个MRVM模型,通过制造资源的静态和动态信息的描述,并基于这两类信息实现制造资源的动态集成。文献[11]提出一个网络化制造的架构用于集成分散的资源服务。基于语义的资源挖掘方法主要通过本体描述[12]、语义框架[13]以及语义模型[14]的方法,文献[12]提出了一个基于本体的自动设计方法,在物联网环境下配置医疗资源,文献[13]提出一个语义集成框架描述资源相关的信息和知识,最终用于集成资源。文献[14]提出的多粒度资源模型可集成业务过程中的制造资源,并通过本体推理形成服务序列。服务质量(QualityofService,QoS)经常作为资源聚类的依据[15-17],如引入到物联网的应用中实现制造资源和制造能力的优化分配,这其中就体现了资源集成[15],文献[16]采用非功能性的QoS优化动态的资源服务组合,资源集成问题也常被当作多目标优化问题采用并行智能算法解决[17]。以上资源集成或挖掘方法都是对资源做简单汇聚,针对资源序列的挖掘方法很少。文献[18]采用QoS属性量化业务过程的方法集成资源服务,其他方法还包括多粒度的资源集成方法[19],资源服务时序推荐方法[18],以及文献[21,22]。总体上看,目前关注较多的是资源(服务)序列的集成,大多是基于、语义、框架和模型的方法,通过业务历史数据挖掘相应的资源服务序列的研究目前还很欠缺。

3问题描述

协同任务系统中资源服务广泛分布,不同组织则通过管理平台进行资源的交互,协作完成共同的任务,如图1所示。因此,资源服务序列,即资源服务链可定义如下:定义1资源服务链资源服务链RSC可表示成:RSC={<R1,…,Rm>|m|Act|},其中,资源服务集R1,…,Rm服务于业务活动集Act。当分布的业务活动交互时,相应的资源服务链随即形成,未必需要一个明确的工作流管理系统。尽管如此,多组织交互时往往离不开工作流技术的支持。工作流则是业务过程的一个技术层面的概念,包括工作流建模和运行两个阶段。工作流模型可定义业务活动的执行顺序,以及每个业务活动使用的资源服务。

4资源服务链挖掘策略

当多个资源服务同时服务于一个业务活动时,资源服务之间就存在着一种任务相关(Task-related)的依赖关系,当业务过程向前推进时,资源服务集之间存在着时序关系。因此,任意一对资源服务间的时序关系可通过工作流模型或者资源服务时序模型得到,通过统计,可进一步得到该时序关系在模型出现的频率。模型虽然可以描述所有可能的资源服务链,但资源服务序列的频度还是要通过运行数据反映。工作流运行时,工作流实例以及相应的资源服务链都保存到工作流日志中,这便于我们进行挖掘,进而得到各资源服务链被使用的频率,使用频率高的资源服务链就是我们要挖掘的目标。即便没有工作流系统,业务数据发生的时间也可以作为资源服务序列的重要参考。挖掘结果中,对相应的工作流实例而言,资源服务链可以是一条完整的序列,也可以是部分的序列。例如图2中,挖掘得到的资源服务链可以是<r2,r2,r3,r4>,也可以是<r2,r3>。这是因为对于一个工作流实例来说,完整的资源服务链也会因为资源依赖强度的存在而被划分为多个子序列,不同的子序列其被使用的频率也不尽相同。因此,资源服务链的挖掘从工作流模型以及运行数据两个方面进行。

5资源服务链挖掘方法

资源服务链挖掘分别从工作流模型和运行数据入手(本文方法从工作流模型入手,资源时序模型可通过工作流模型获得,或者直接建立),依据资源依赖强度可得到不同的资源服务集,再得到初始资源服务链集合InitRSCS;然后,扩展InitRSCS中的资源服务链并以此为聚类中心,通过挖掘运行数据得到新的资源服务链集合,即新的聚类中心。

5.1InitRSCS挖掘算法初始资源服务链集挖掘分两个步骤:①获得依赖强度最高的资源服务集;②根据工作流模型,识别资源服务集中的时序。直观地,工作流模型已经为每个业务活动定义了资源服务集,设RS={R1,R2…,Rm},Ri是业务活动ai使用的资源服务集,Ri.dep表示Ri中资源服务的依赖强度。此外,还需要考虑Ri的所有子集Rij,采用统计方法可获得依赖强度高的资源服务集。上述算法得到的是共同使用而且较为频繁的资源服务集,根据工作流模型规定的资源服务时序,容易得到其中的资源服务时序关系。例如上例,依赖强度较高的资源服务集{r3,r5}在工作流模型中存在时序关系,即<r3,r5>和<r5,r3>,对应了业务活动a2a3。InitRSCS可手工获得,不需要算法协助。

5.2运行数据的挖掘因为从模型获得的依赖强度高的资源服务,不能反映现实业务交互中被使用的频率。因此,以上节获得的InitRSCS为核心,通过挖掘运行数据,修正InitRSCS的偏差。挖掘策略如下:以提高资源服务链的复用性为目的,以InitRSCS中每个资源服务链为聚类中心,对其扩展序列进行聚类,修改InitRSCS以求解新的聚类中心。扩展序列也是资源服务链,是对任意一条资源服务链rscInitRSCS,插入其他资源服务后形成的新序列。InitRSCS连同最后形成的扩展序列集合,统一记作exRSCS(extendedResourceServiceChainSet)。挖掘exRSCS的使用频率,这样的策略就是要尽可能地提高业务领域内资源服务的可复用性。算法ClusterRSC最后通过算术平均值求解各扩展链到InitRSCS的相似度均值,最终得到最佳扩展链,即与InitRSCS最为相似并且使用最为频繁的资源服务序列。挖掘的最终目的是找出频繁使用的资源服务序列,为相似制造领域选取、资源推荐等提供合理依据。

6实验与案例分析

下面分别通过仿真实验和案例分析验证所提方法的有效性。

6.1实验验证首先描述实验用例的领域。以典型的电器产品设计与组装为例,如图4所示,分析在协同任务环境下的制造资源服务组合方法。示例涵盖了产品设计、加工、组装和零部件供应的全过程。其中,产品设计属于多专业的协同设计,包括硬件、软件、机械和电源设计四个专业,所需资源主要包括人力资源和技术资源。产品加工过程主要涉及到硬件加工和机械加工,零部件供应为电源提供组装部件,同时也为产品的最终组装提供零件,主要涉及到技术资源和物料等。各业务活动所需资源如表1所示。

6.2实验结果分析从实验结果看,从模型得到的使用频繁的资源服务链,其扩展链的使用频繁程度,取决于运行数据,即取决于实际业务情况。本文方法的主要用途之一就是提高资源服务选取的效率,因此,在工作流路径不同执行频率权重下,仍以<r2,r5>为例,比较效率提高的程度。这里,设定1个资源服务选取的效率消耗为1个单位,而且一条资源服务链的效率消耗为其长度。

6.3案例分析本节以某中小型家电生产企业为例,选择出入库流水账作为数据源。在产品生命周期内该企业负责加工制造环节,由于除人力资源、资金资源等之外,库存流水账保存了用于硬件和机械加工过程以及电源装配过程的所有资源,而且每次出入库都保存有时间戳,因此适合用于挖掘资源服务序列。该案例不以工作流模型为基础,并且假设出库时间就是该资源服务的时间。项目个数选取1000个,数据对象81386个,共267个小类,6大类:电器元件、电源元器件、机械加工材料、机械冰箱部件、风冷冰箱部件、空调制冷系统部件。数据对象属性说明如表6所示。隐含的资源服务链<ri,rj>需满足如下条件:W(<ri,rj>)>W(<rj,ri>),并且Ws=W(<ri,rj>)-W(<rj,ri>)的值较大。Ws的阈值选取可遵循如下原则:对Ws值排序,按从大到小的顺序获取相应的资源服务链,当某Ws值相应的资源服务已不是合理的时序时,可设定该Ws为阈值。这是因为Ws值足够小时,其时序关系已不再是一种必须的约束。经处理后得到如下资源服务链:<8,4>,<8,6>,<10,4>,<10,6>,<4,17>,<15,13>,<15,14>。扩展后还可得到另外两条资源服务链:<8,4,17>,<10,4,17>。此9条资源服务链即为挖掘结果。

7结束语

资源服务链挖掘在协同任务系统中是一个重要的研究问题。本文提出了一种协同任务系统下针对资源服务时序的挖掘方法,方法主要从工作流模型和运行数据两个方面进行挖掘。当得到频繁使用的资源服务集后,即可获取其中包含的时序,通过对运行数据的挖掘获得频繁使用的资源服务时序。虽然所提方法从工作流模型入手,但也可以从业务数据的时间戳入手,因此本文方法并不依赖于工作流模型。本文方法是对资源服务序列的挖掘,现有方法大多是对资源服务做简单聚集,因此,可作为对现有方法的补充。这对资源选取效率、提高资源可用性和利用率都具有积极的作用。未来的工作,主要集中在条件约束下的资源服务序列的挖掘与组合优化方面。

作者:李海波  梁梦夏 单位:华侨大学 计算机科学与技术学院