本站小编为你精心准备了统计分析的许可回收规则定义参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:
针对许可回收规则中特征项和阈值的选取缺少定量分析的模型和方法的问题,本文在形式化定义参数模型的基础上,综合使用差分编码、信息熵和相关矩阵等统计分析方法描述特征敏感性和相关性,并提出了敏感突出、代价最小化、趋零一致性和翻倍稳定原则,以筛选特征项、界定阈值。根据用户使用企业级软件的数据,该方法能够从多个候选项中,选定CPU利用率作为许可回收规则唯一的特征项,并设定阈值为8%,判定时间间隔为1136s。实验结果表明,该方法简单有效,而且易于编程实现。
关键词:
特征选择;统计分析;规则定义;熵;相关系数
企业中的专业软件许可是一种价格昂贵且数量有限的重要资源,因此如何有效监控、回收“占而不用”的许可资源,降低许可应用成本,成为企业必须面对的一个现实问题。传统的软件许可管理是基于Flexnet软件的集中式管理方法[1-2],最近几年,一种许可证动态控制技术[3-4]逐渐在企业级软件的应用环境中部署使用。它通过在客户端安装插件,定时采集、分析CPU、网络IO、键盘/鼠标动作等特征,基于预定义的回收规则,判断许可的使用状态,主动释放“占而不用”的许可,能够有效减少管理员的参与。其逻辑处理流程如图1所示。此外,随着云计算、网格计算的应用实践不断深入,许可证的授权管理机制[5-6]和云环境中软件许可的管理[7-8]也逐渐成为研究的热点。
但是,文献[1-2]采用的方法管理员无法获知用户的实际使用状态,在许可不够用时,只能人工强制回收许可。文献[3-4]缺少对回收规则定义的定量规定,需要管理员根据经验设置;而且这种方式没有考虑特征项的显著性,以及特征项之间的相关性,所以会导致采集数据的大量冗余,进而影响分析的性能。因此,研究回收规则中特征项和阈值定义方法的重要性就日益凸显。本文在形式化定义参数模型的基础上,综合使用差分编码、信息熵和相关矩阵等统计分析方法,描述特征的敏感性和相关性,并提出了“敏感突出原则”、“代价最小化原则”、“趋零一致性原则”和“翻倍稳定原则”,用于特征项筛选和阈值界定。
1参数建模
定量统计分析方法的基础是建立形式化的参数模型。下面依次给出了假设、参数形式化和数据预处理的形式化定义,并说明了其实际含义。
1、1假设设定假设条件有利于降低建模复杂度,是形式化建模、分析的基础。四条基本的假设为:(1)企业级应用软件占用的本地硬件资源,会随着软件的运行而变化;(2)用户可随机使用软件;(3)采样间隔为8s,能够准确反映特征值的变化;(4)统计分析间隔是采样间隔的整数倍,记为N倍。假设(1)是根据客户端硬件资源使用情况,判断许可使用状态的最基本的前提条件;假设(2)指出了用户操作之间的独立性,进而可以推导出采样点之间,以及统计分析点之间是独立的;假设(3)、(4)简化了采样、统计的计算,使程序易于实现。因此,根据一个统计分析点,就可以确定出许可的当前状态。
1、2参数形式化定义根据前面的假设,对涉及的概念进行了抽象,给出了形式化的定义:
1、3预处理针对连续型数值,比如:网络IO,由于统计流量不可避免的误差,需要定义一个误差区间,这里选取波动范围是±0.5。经过区间限定,连续型数值退化为离散型数值。
2特征统计分析
2、1特征敏感性分析本文借鉴了差分编码和信息熵[10-12]的思想,通过信息熵衡量特征项的变化程度。特征敏感性分析包括三步:首先记录相邻采样点的特征值的绝对变化。最后,根据“敏感突出原则”,选择H(D(i))的候选特征项。根据假设(1),特征项应该对应用软件运行状态的变化反应快速,而且差异显著。根据实践经验,这里选择H(D(i))的阈值为1。“敏感突出原则”正是基于该条件,对候选特征项进行过滤。
2、2特征相关性分析特征项之间的相关性分析是降维的一个基本方法,本文采用Pearson相关性分析方法[13-16],衡量特征项之间线性相关性的强弱。值得注意的是,奇异点对相关性影响很大[17]。因此,首先要过滤奇异点,这里奇异点集合简单定义。如果P(V(i)=0|V(j)=0)>0.6,表示cfi,cfj在零值处的变化具有很强的一致性。根据假设(1),如果特征值为0,也就意味着该硬件资源空闲,用户没有与应用软件交互。所以,即使cfi,cfj在相关性上表现不强,只要二者具有趋零的特性,仍然可以认为cfi,cfj在判断空闲状态上,具有较强的“相关性”。
2、3阈值选择在统计分析间隔时间内,如果存在特征值大于下限,那么回收规则判断该软件状态为“活跃”,这意味着有交互或者后台任务;否则判定为“空闲”状态。
3实验验证
为了验证2中的统计分析方法,本文对单一用户一天中(10:04:35~17:34:38)的工作状态进行监控。该用户通过Xmanager软件远程登录应用服务器,操作GeoFrame企业版软件。实验选取4个典型的候选特征项,见表1。需要注意的是如果用户直接使用本地的应用软件,则需要监控本地磁盘IO,而不是网络IO。根据21中描述的方法,首先计算候选特征的信息熵,然后根据“敏感突出原则”,选择H(D(i))>1的候选特征,结果见表2。根据22中描述的方法,首先计算cf1,cf3,cf4之间两两的Pearson相关系数,并验证双尾显著性,结果见表3。显然,cf3,cf4具有显著相关性,并且前者的统计数值偏小易于计算,根据“代价最小化原则”,选择cf3。而cf1,cf3虽然线性相关系数不高,但是,P(V(3)=0|V(1)=0)=0.868,也就是说在CPU利用率为0时,上行网络IO也趋于零。根据“趋零一致性原则”,二者的相关性是有价值的,进而可以使用“代价最小化原则”,选择cf1作为回收规则中的特征项,因为从本地获取CPU信息比循环中断计算上行网络IO更廉价。根据23中描述的方法,计算得到N=142,即统计分析间隔1136s,近19min;因为选的是阈值下限,所以对应的W=8。至此,可以将精炼后的许可回收规则描述为:如果在1136s的142次采样结果中,Xmanager的CPU占用率都低于8%,则判定软件应用空闲,需要释放占用的许可资源。从图2中,可以比较直观地看到cf1,cf3,cf4在时间轴上特征值的变化趋势。虚线表示W=8的CPU阈值,实线表示CPU利用率的变化,细点线表示IO_up的变化,顿点间隔线表示内存的变化,许可回收规则判定为软件应用忙碌的时间点由三角形标记。可以看出以上判定规则对空闲发现是有效的,候选特征和阈值的选择过程清晰易懂,而且算法简单,易于编程实现。
4结语
实验证明,许可回收规则定义时,基于统计分析的方法能够通过定量的计算,明确候选特征项的敏感性和相关性,而本文提出的“敏感突出原则”、“代价最小化原则”、“趋零一致性原则”和“翻倍稳定原则”综合运用后,能够有效筛选特征项,并确定阈值。从另一方面来看,CPU、内存和IO仅仅反映了软件自身的运行状态,没有考虑用户与软件的交互行为。下一步的研究可能需要结合用户点击键盘、鼠标的操作行为,运用统计学原理,进一步充实回收规则。但是,植入钩子(hook)[18]采集用户行为,不仅CPU资源开销巨大,可能影响正常的软件使用,而且用户会有安全性的担忧。
参考文献:
[1]史明宏,唐浩FlexNetManager在大庆油田研究院软件集中管理中的应用[J]办公自动化,2013(4):28-30
[2]邓莉,范德军,孙胤航大型专业软件集中管控技术探索与实践[J]中国管理信息化,2014(22):93-94
[3]上海莱曼特信息科技有限公司莱曼特软件许可证动态释放软件LMTlicRecycler:中国,2013SR005134[P]2013-01-16
[4]无锡云科软件科技有限公司许可证动态控制器[EB/OL](2012-08-02)[2014-08-02]
[5]陈智聪基于浮动授权管理的许可证使用报表系统的研究与实现[D]广州:华南理工大学,2011
[6]李美蓉软件许可证授权管理系统的设计与实现[D]成都:电子科技大学,2011
[7]侯正雄,周兴社,王云岚,等网格环境中面向按需服务的软件license管理方法[J]。华中科技大学学报:自然科学版,2007,35(s2):140-143
[8]王寅峰,董小社,郭华,等网格环境中软件共享系统的License管理器[J]华中科技大学学报:自然科学版,2006,34(s1):5-8
[9]KIMM,CHENH,MUNSONJ,etalManagementbasedlicensediscoveryforthecloud[M]//ServiceOrientedComputingBerlin:Springer,2012:499-506
[10]周炯?,庞沁华,续大我,等通信原理[M],北京:北京邮电大学出版社,2005:67
[11]SHANNONCE,WEAVERWThemathematicaltheoryofcommunication[M]Urbana:UniversityofIllinoisPress,1971:1-10
[12]崔颖差分编码关键技术研究[D]北京:北京邮电大学,2013
[13]李秀敏,江卫华相关系数与相关性度量[J]数学的实践与认识:2006,36(12):188-192
[14]张宇镭,党琰,贺平安利用Pearson相关系数定量分析生物亲缘关系[J],计算机工程与应用,2005(33):79-82
[15]丁剑洁相关性分析技术在软件度量中的应用[J]陕西教育学院学报,2008,24(1):100-103
[16]STIGLERSMFrancisGalton'saccountoftheinventionofcorrelation[J]StatisticalScience,1989,4(2):7379
[17]NEYMANJOnthetwodifferentaspectsoftherepresentativemethod:Themethodofstratifiedsamplingandthemethodofpurposiveselection[M]//BreakthroughtsinStatisticsNewYork:Springer,1992:123-150
[18]倪步喜Windows的钩子技术及实现[J]计算机与现代化,2007(1):28-30
作者:孙剑 杨澎涛 张媛 单位:胜利油田物探研究院计算室 胜利油田中心医院