美章网 资料文库 企业信息系统用户行为统计特性范文

企业信息系统用户行为统计特性范文

本站小编为你精心准备了企业信息系统用户行为统计特性参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

企业信息系统用户行为统计特性

对用户访问行为规律的研究分析,是大型门户网站、社交网络、电子商务网站等每天必做的功课,通过对网站访问的分析研究,了解用户的地域分布、兴趣爱好、行为特征等,从而更好地对网站进行运维管理,改善网站的服务质量,以迎合客户需求,吸引客户。但是在管理信息系统领域中,企业缺乏对用户行为规律的研究,在新信息技术不断涌现特别是云计算的背景下,基于云的信息系统已成为必然,对系统中用户行为规律和群体特征缺乏了解,会阻碍管理信息系统的发展。通过对大量人类行为事件进行研究分析,从中挖掘出人类行为的特性与规律,是当前的研究热点之一,已在许多领域开展了大量的实证探索,取得了系列的研究成果,研究情境包括水路邮件、电子邮件、网页浏览、电影点播、手机通讯、金融活动、博客论坛、面对面交互网络等。然而到目前为止,对人类行为模式研究较少,仅有文献研究了市场中的证券交易,文献[15]对某世界500强企业下发采购订单行为进行了时间统计分析,但是对企业信息系统中的人类行为模式的研究还没有涉足。为此,本文通过对企业管理信息系统用户访问日志数据进行分析,研究企业信息系统用户个人访问的时间间隔、活跃度、阵发性和记忆性,对信息系统中用户访问行为规律进行定量分析,并进一步研究群组用户和全体用户的访问时间间隔规律。研究企业信息系统用户访问行为的规律,可以对信息系统用户的访问行为进行有效预测,进而为企业信息系统的运行维护和优化提升提供依据,同时也拓展了用户访问行为规律的研究情境。

1研究方法

1.1人类行为动力学全面深刻地认识复杂的人类行为特征一直是学者们努力的方向。以往由于数据记录的手段落后,加上缺乏现代统计工具和方法,在研究涉及人类行为特性的问题时,常常假设人类行为是符合泊松过程的稳态随机过程,其2个相继行为的时间间隔用负指数分布描述如下:P(τ)~λe-λτ(1)泊松过程可以看作具有负指数间隔的计数过程,即人类活动模式是随机和平稳的,其相邻事件的时间间隔大体上是均匀的,很长的时间间隔非常稀少。随着信息技术的发展和现代统计工具的进步,人类记录和分析自身行为数据的手段也越来越高效和便捷,使得利用大规模数据分析人类行为模式成为可能。2005年,Barabási[2]在Nature上发表了一篇题为“Theoriginofburstsandheavytailsinhumandynam-ics”的论文,标志着人类行为动力学的正式提出,该论文通过分析电子邮件发送和回复行为的时间间隔,揭示了人类行为在时间上对泊松分布的偏离,人类行为的时间统计特性不是均匀的,其中伴随着长时间的静默和短时间内的高频率的爆发,相继行为的时间间隔分布具有明显的胖尾特征,可以用幂律分布函数更好地拟合。人类行为动力学是一门新兴的交叉科学,通过对大量人类行为事件进行定量统计,从中挖掘人类行为的统计规律,提出假设建立模型来探索这些规律的产生机制和可能的动力学影响[2]。大量的实证研究都揭示了人类行为在时间维度上是偏离泊松分布的,在行为模式上表现出了短时间阵发和长时间休眠的特征。

1.2时间特征分析指标人类行为的时间特征指标分别包括间隔时间、活跃度、阵发性、记忆性等。1)间隔时间:是指连续2次相继访问的时间间隔。例:甲于“2012\01\0108:08:08”时刻访问信息系统,乙在“2012\01\0108:08:09”时刻访问信息系统,则甲乙2个相连行为的间隔时间为1秒。如果所有系统用户访问信息系统的次数为k次,则有k-1个间隔时间。本文的时间单位是秒。2)阵发性:是描述用户行为短时期密集活动和长时间静默的物理量,在本文中使用Goh和Barabási的公式计算阵发性。3)记忆性:是描述时间间隔特性的相关性程度,人类活动长的时间间隔后面容易跟着一个长的时间间隔,短的时间间隔后则容易跟着一个较短的时间间隔,这样的人类行为发生的时间序列被认为具有记忆性。4)活跃度:即活跃程度,是指一个人从事某种活动的强度。文献[7]提出活跃度的概念,并指出了用户活跃性程度与幂指数具有非线性正比关系,定义活跃度为第一个行为发出到最后一个行为发出这段时间内用户发出的平均行为数。Ni是该用户个体发出的行为总数,Ti是该用户从第一个行为发出到最后一个行为之间经历的总时间。

2数据收集与分析

2.1样本企业的选择在本文中以X公司为研究对象,研究用户访问企业信息系统的时间特征。X公司是国内著名的船舶修造企业,有员工及务工人员1万多名。X公司一直重视企业信息系统建设,曾投入巨资购买了Oracle的ERP系统。由于受到全球经济危机的影响,船舶市场整体低迷,X公司为了增强企业竞争力,于2011年9月实施了成本管控系统,包含报价成本、目标成本、成本核算、成本分析、财务管理等共8个子系统,该成本管控系统注册用户314名,人均日访问量3次,人均日访问系统功能3个,员工的访问人数和访问量代表了X公司的信息化应用情况。

2.2数据获取从X公司成本管控系统的数据库日志文件,提取了2011年9月14日到2013年6月14日期间用户对成本管控系统的访问操作,删除了没有登录名和部分错误的记录,得到了314位系统用户共计348122条访问行为记录,通过访问行为记录研究总体用户访问行为规律,同时以其中30位访问量最大的活跃用户为对象研究个体用户访问行为特征,并对30位活跃用户按访问量大小分为3个群组,研究群组用户的访问行为特征。

2.3数据分析在对数据的获取和分析过程中,主要运用SQLServer,Matlab,Excel等工具对样本数据进行处理和分析。1)根据X公司的数据库日志文件,提取所有用户登录访问系统时间,计算相继访问系统行为的时间间隔;2)通过Matlab软件,得到相继行为的间隔时间在双对数坐标下的概率分布图;3)采用最小二乘法对主体数据拟合得到幂指数及其概率密度函数,选出30位访问量最多的活跃用户分析用户访问行为特征并统计其访问量、活跃度、阵发性、记忆性等指标,同时将其分为3个群组,从个体———群组———全体3个层面研究信息系统用户访问的行为规律特性。

2.4拟合方法及过程数据拟合又称函数逼近,是指选择适当的曲线来拟合离散数据点,不要求经过所有数据点,只要求尽可能地反应数据点的基本走势。本文所用拟合工具是Matlab,拟合方法是最小二乘法,即根据已提取的数据找到函数关系表达式,作为拟合模型,使求解得到的数据和实际数据之间误差的平方和最小。对数据拟合的优劣性衡量指标有:解释能力(R-square)、残差平方和(SSE)、均方根(RMSE)等。其中残差平方和(SSE)是衡量最小二乘拟合优劣程度最重要的指标之一,R-square越大,SSE和RMSE越接近0,说明模型选择和拟合效果好,数据预测也越成功。笔者用Matlab通过自己编写的代码,作出X公司的成本管控系统用户的访问时间间隔在双对数坐标的图,然后通过最小二乘法在Matlab下的实现,找出最优的拟合模型。

3结果分析

3.1个人行为分析1.个体用户访问信息系统的规律。以数据库日志文件中访问量最大的前30位活跃用户为对象,通过Matlab软件,得到这30位活跃用户对成本管控系统访问行为的间隔时间在双对数坐标下的概率分布图,然后利用最小二乘估计方法对主体数据曲线进行拟合,得到个体用户访问信息系统行为的拟合曲线,图1~图3分别是系统管理员、访问量排名第19位和第21位的用户访问系统相继行为的间隔时间分布。其中蓝色点为全体用户访问成本管控系统相继行为间隔时间的原始数据,红色直线是拟合曲线,3位用户访问信息系统相继行为的幂律分布指数分别为0.9622,0.6422和0.6787。综上分析,发现个体行为的时间统计特性不是均匀的,其中伴随着长时间的静默和短时间内的高频率的爆发,相继行为的时间间隔分布具有明显的胖尾特征,其间隔时间分布在超过2个数量级范围服从幂律分布P(τ)~τ-α,幂指数不等。2.活跃度和幂指数之间的关系。人类行为是高度复杂的,用户的行为规律不仅体现在间隔时间的分布规律上,为了更深层次挖掘信息系统用户的访问行为规律,本文对30位用户的访问间隔时间的阵发性、记忆性和活跃度指标进行计算,详见表1。从表1可以发现:1)X公司个人用户对成本管控系统的访问行为表现出强阵发性和弱记忆性,相比其他研究的复杂行为中的阵发性值,本系统中个人访问行为表现出来的阵发性值更大,说明企业信息系统用户访问的胖尾更为严重。2)幂指数和活跃度存在正相关关系,幂指数会随着活跃度增加而增加,但是幂指数不会无限增大,大概到1.5左右时会保持稳定,如图4所示。例如个人访问量最大的用户活跃度也最大,每天接近72次访问管理系统,但是幂指数是1.37。

3.2群组行为分析为了研究群组访问信息系统的行为,把30位活跃个体用户按照访问量的大小递减排序,把排序后的用户分为3个群组,每个群组包含10个用户,群组数据按照对成本管控系统访问时间的先后顺序组成。首先利用幂律分布分析3个群组对成本管控系统访问行为时间特性,如图5~图7所示。虽然3个群组幂律分布的拟合指数较好,但是对3个群组的拟合中没有考虑头部的数据,而群组数据由于数据量大且并发严重,不能不考虑头部,从图5~图7中也可以看出头部显然是偏离幂律分布的。所以,群组用户访问信息系统的间隔时间可能不是服从单一的分布。从图8~图10可以看出,相比单纯的幂律分布,混合分布的拟合指数更优,对3个群组用户访问信息系统的行为拟合更加精准。为什么服从幂律分布的个体叠加,为什么会偏离幂律分布?一方面是因为对个体用户访问行为头部数据的忽略,这些忽略偏差的累积导致了群组访问行为产生了指数因子;另一方面是信息系统员工访问行为的特性,个体用户很少会在10秒内大量并发地访问信息系统,在对个人访问行为数据统计时发现,虽然有10秒内连续访问信息系统的情况,但是这包含了一定的误操作和非规范操作,所以在对个人用户访问行为的间隔时间分布拟合时,没有考虑间隔时间在10秒内的情况,而对于群组的数据则不然,每天对信息系统的访问交叉在一起,存在大量的并发情况,导致小的间隔时间所占比例增加,从图中也可以看到小的间隔时间出现概率增大,同时由于每个群组数据只包含了10个个体用户,数据量相对不是很大,导致10秒内的并发情况近似平缓,正如图8~图10中所展示的,体现了一定指数分布的特性。此外,通过对3个群组数据拟合得到的幂律分布函数,对比混合分布所包含的2个幂律部分,可以发现群组1的幂律指数最大,而群组3的幂律指数最小,这是源自用户活跃程度的不同所造成的,群组1包含的访问行为数据最多,整体活跃性程度最大,每天的并发访问情况最大,导致小的间隔时间所占比例大于另外2组,大的间隔时间所占比例则小,从而导致在幂律指数在3组中是最大的。而群组3正好相反,整体的活跃性程度在3个群组中最小,即并发访问情况相对较轻,小的间隔时间所占比例小,大的间隔时间占的比例大,即体现在幂律指数是3个群组中最小的。

3.3全体行为分析3.1节和3.2节对管理信息系统的个体用户访问系统行为规律进行了统计和分析,对分成3个群组的个体用户进行了群组访问行为规律的分析,得到了与个体用户行为不同的群组特性。下面将从数据库日志文件中获得的访问行为数据进行整体研究。研究发现,虽然全体行为的间隔时间分布在超过2个数量级范围服从幂律分布P(τ)~τ-α,但是实证数据的头部显然兼具着指数分布的特性。用指数截断的幂律分布对数据进行拟合,发现拟合参数中的R2值仅为0.5012,如图11所示,没有找到合适的指数截断的幂率函数形式,所以除了混合形式的分布,用分段形式的分布来表示更好。如图12所示,头部的数据用指数分布拟合,中尾部的数据用幂律分布拟合,拟合曲线和实证数据高度吻合。从图中可以看到,在60秒内的间隔时间服从指数分布,超过60秒后的间隔时间服从幂律分布。由于相对只有10个个体用户访问行为数据的群组而言,全体访问有314位用户,每个工作日都会有更严重的并发访问信息系统。从图12中也可以看到,小的间隔时间概率在增大,从而导致对比个体用户和群组访问行为的间隔时间,全体访问行为间隔时间数据的头部更加的平缓,更加趋向指数分布,从拟合效果也可以看到,60秒内间隔时间用指数分布拟合和实证数据的吻合(R2=0.9991),即全体用户在60秒内对成本管控系统的访问服从泊松分布;而随着间隔时间的增大,分布逐渐偏向幂律分布(R2=0.9899),幂指数是2.2689。对比个人访问行为,全体访问行为数据中段部分的幂律分布指数更大,原因是随着访问人数的增多,并发访问变大,小的访问间隔时间所占比例增大,大的间隔时间所占比例变小,导致幂指数变大;全体用户的访问行为的间隔时间在头部出现较大差异,一方面是由于对个体行为拟合的弱小误差,另一方面是并发情况的加剧所导致。所以,可以大胆设想,如果系统用户有无穷多个用户,日常访问的并发情况应该更严重,可能会导致访问行为60秒内的间隔时间分布也偏离指数分布,趋向幂律分布。

4结论与讨论

通过对信息系统用户的个体———群组———全体3个层面的实证分析,探讨系统用户访问行为特征,实证结果表明:1)信息系统用户行为的统计规律在个体层面上表现出单一的幂律分布,在群组层面具有混合分布的特征,在全体层面却表现出分段的分布形态,展现了人类行为的高度复杂性和多重标度特性。2)信息系统用户在个体———群组———全体3个层面都表现出了严重的胖尾特征,个体用户的访问有很强的阵发性和弱记忆性,幂指数和活跃度存在正相关关系。3)个体———群组———全体3个层面表现出的幂律指数的差异,是由并发访问情况的差异所决定,并发性越大则小的间隔时间所占比例越大,大间隔时间所占比例则小,幂指数越大。笔者得到和以往学者针对用户行为研究的不同:信息系统用户的访问行为在个体到群组再到全体展现出不同的标度特性,表现出人类行为的高度复杂性,对于用户行为的规律的研究有更深层次的意义,为了更加深刻地理解人类行为提供一定的理论和实证提供一定的参考价值。同时仍有一些问题值得进一步研究,比如,笔者指出了用户行为的幂律特征和用户的并发访问有深刻的联系,并发访问的严重程度决定了幂律指数和泊松特征,需要扩展数据量来实证分析;另外分析用户对信息系统的使用频度,对各个功能业务模块访问的差异性等;同时建立一个信息系统用户访问行为的动力学模型来预测用户行为也是笔者急需解决的问题。

作者:任佳佳 王念新 葛世伦 单位:江苏科技大学经济管理学院