本站小编为你精心准备了基于加权模型的信息传播论文参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1相关工作
要进行用户和APP的访问关系分析首先是收集手机用户数据,确定数据获取的类型和范围。从已有研究成果看,由于移动互联网用户通讯访问的日志数据需要与移动运营商进行协调沟通才能获取,而数据又往往涉及到用户隐私,因此移动互联网领域公开的通讯数据集很少,导致对移动互联网用户行为分析的相关研究仍旧处于起步阶段,大多数研究都只是针对特定空间范围和特定种类的用户进行的。胡俊华等人通过在接入网网关设置的方式,获取了一个小区内用户3G无线网络中用户行为的数据,对数据进行处理后研究了3G无线网络用户行为模式。文献对无线局域网环境下(校园)用户行为进行分析,Balachandran等人同样基于无线局域网内获取用户数据,如在会议室和公共建筑物,研究用户行为和无线网络性能。提出了解决无线网络多重接入点负载平衡和网络优化的负载分析模型。文献发现了在公共建筑物等较大范围环境下,用户行为和网络负载与其他小范围环境局域网,如校园的特点类似,研究还发现网络流量拥塞程度与用户数量的存在弱相关性。Ghosh等人根据商业场所(咖啡馆,快餐店,书店,宾馆和企业)中的Wi-Fi热点上采集的数据,研究用户在同一时间段无线上网行为模式。从流量数据的到达模式,到达模型,连接次数,用户数等四个方面,研究不同商业模式下的移动用户上网模式,他们的研究工作更侧重于研究移动用户上网行为对无线网络的负载的影响。类似地,Olmedilla等人在分析发达国家手机用户访问移动互联网的通信日志之后,将通信日志分类并根据用户访问的网络资源,如网页目录,社交标签系统将用户的访问兴趣建模,从而得到移动互联网用户的行为模式。
分析移动互联网APP的传播特性以及用户对APP访问关系时,复杂网络和统计学结合的方法是国内外最近关注的热点之一。Yan等人运用复杂网络将用户对新浪微博的访问行为建模,发现用户微博的时间间隔服从幂律分布,并且发现这种分布是受用户兴趣度的影响。文章提出用户的社会身份驱动着用户兴趣的变化,并直接影响到微博的评论数和转发数。二分图作为复杂网络的重要模型之一,可以用来为现实世界中大量人类行为进行建模。近些年来,二分图由于其在社科,经济和信息系统方面的意义,受到了人们的广泛关注。如科学家-论文合作网,听众与歌曲网、演员与影视作品网,城市交通网。Newman通过建立科学家与论文二分图,统计出该网络的平均距离和聚类系数。文章对科学家-论文网络两类节点的度分布进行统计,发现科学家的时间间隔服从幂律分布,且幂指数相差很大。Lambiott等人根据人们从互联网下载音乐的行为建立了听众-歌曲二分图,通过对两类节点聚类,研究发现听众群体服从幂律分布,但是听众所下载的歌曲数量服从指数分布。还有研究人员将二分网络应用到协同过滤算法中,以提升算法的性能,如Liu等人将二分网络的两端端点度的关联建模以提高推荐效果。本文应用二分图对用户对APP访问行为进行建模,该模型可有效地展现用户的访问行为。
2.1二分图模型的建立在移动基础网络中,每条通信日志数据均代表一个终端用户对移动网络的访问。通过剔除手机浏览器产生的数据包,其余日志数据均代表了用户主动或被动产生的APP网络访问行为。一个用户可访问多个APP,一个APP可被多个用户使用,从而产生了用户-APP的二分视图,用二分图模型来刻画描述该访问关系。图1为二分图模型示例,该图以根据2014年3月某天中午12:28:55到12:46:56时间段内某省移动网络国际出入口口捕捉到10次用户访问APP通信行为日志为数据基础,分别记录了5名手机上网用户访问APPledaily和nextmedia等2个新闻类APP产生的日志。其中,用户1u、4u访问了2c的APP的次数均为1次。
2.2加权投影网络图二分图模型量化描述了用户访问各种APP的统计情况,将二分图加权投影到单顶点网络,从两类节点,用户和APP的视角分别投影,然后进行网络分析可有效地在二分图基础上得到APP之间的关联程度图,从而挖掘出APP之间的关联程度。APP之间的关联程度图可以分析出各种业务关联的强弱,如发现喜欢使用某APP的用户还喜欢使用哪些APP,从而有助于深入分析移动互联网用户访问行为和使用习惯,了解用户对移动互联网服务的使用偏好,为应用开发者提供行业发展动向,改善APP用户体验分析和竞争对手比较的优势和不足。首先,可以定义二分图上APP之间的关联程度图。相同用户访问过的两个APP可连边,边权重代表两个APP覆盖相同用户的数量,如式(1)所示。APP关联图反映出同时访问不同的APP的用户数。
2.3模型指标及其物理意义二分图的节点的度表示为与该节点相连接的其它节点的数目。用户节点的度的形式化定义为式(2),其物理意义是用户访问过的APP业务种类数。二分图的节点权重度定义为与该节点相连的所有的边的权重之和,其物理意义是主要根据边权重的定义而定。此文中根据模型中边权的定义,用户节点权重表示用户访问各类APP产生的总点击次数,APP节点权重表示各个用户访问该APP的总点击次数。用户节点权重的形式化定义为。在本文中,度的量化可以是访问次数(日志条数),也可以是每次访问的产生的流量比特数,根据实际使用的需要不同而不同。
3访问日志数据集及预处理
3.1日志数据预处理由于移动互联网APP种类多达数百万款,本文选取了运营商关注的前十种典型APP作为研究对象,以APP通信规则对日志大数据实施预处理,筛选出相关访问日志。例如,从省移动运营商网络出入口口的流式海量日志数据中提取一段时间(例如一周中的六天)内主流APP“苹果日报”产生的http报文,均包含“AppleDaily”URL字符串,再排除手机浏览器产生的相关数据后,可发现该APP日均在该省有约1000万条访问日志涉及6000个独立手机用户。本文分别用APP1-APP10标识所分析的这10个APP,并详细分析用户访问日志记录。
3.2访问日志数据集本文采集了2014年3月份某省国际网络出入口周一到周六共6天的流量数据,数据规模达650亿条日志,独立移动互联网用户达1050万个。针对运营商关注的APP名单和相关通信特征规则中,挑选10款主流不同类型的APP的通信特征。从650亿条日志中提取相关日志记录,共取得约共9000000条日志,包含约17000个独立手机号用户。650亿条日志涉及的独立用户总数为1050万。每条访问日志包含表1中的各个字段,日志数据格式如表1所示。如上所示,系统记录用户请求AppleDaily应用的时间为2014年3月3日,请求开始的时刻为12:28:55。源IP为116.25.19.21,源端口为19331,访问的目标IP是69.192.4.163等信息。
4基于二分图模型的APP信息传播特性分析
本文基于用户-APP二分图模型,提出如下各项算法分析移动互联网用户对APP的访问特性,首先根据所选取的数据,分析用户访问兴趣,得出用户访问的APP范围和用户在移动互联网的活跃程度。然后探讨了选取的10个APP的用户渗透率,用户使用率,用户粘性在一天内四个时间段的分布情况。并给基于三项指标,计算了10个APP在六天内的变化情况。最后通过分析,得出10个APP之间的访问关联性。下面介绍具体的分析过程。
4.1用户访问兴趣
4.1.1用户访问的APP范围在复杂网络中,常用节点的度分布来描述网络的整体特征。对用户节点的度进行统计分析,可以发现用户访问的APP数规律,从而发现用户对移动互联网的兴趣范围。图3显示了用户节点的度分布特征和拟合情况。从图中可以看出:(1)用户节点的度分布在半对数坐标下近似呈一条直线,通过线性回归分析,求得用户节点的度服从=1.720的指数分布,即用户对APP的访问服从指数分布。(2)用户访问的APP数体现了用户的兴趣范围,90%以上的用户只请求很少几类APP,平均度是1.92,说明大多数的用户只访问少数种类的业务,对移动互联网兴趣集中,用户节点的最大度是8,表明仍存在少数的用户,对移动APP兴趣比较广泛。
4.1.2用户在移动互联网中的活跃程度用户对所有APP的请求次数体现了用户的活跃度,在用户-APP二分图中,用户的活跃程度可以用权重度us来计算,即APP节点权重表示各个用户访问APP的总点击次数。图4显示了用户节点的权重度分布特征和拟合情况。从图中可以看出:(1)用户节点权重度分布具有明显的重尾特性,在双对数坐标下近似呈一条直线,通过线性回归分析,求得权重度服从=2.784的幂律分布。(2)用户对移动互联网的APP的访问表现出较强的非均匀性,大部分的普通用户对APP的请求都较少;而一些少量的用户表现的非常活跃,而这些活跃用户成为了移动互联网中主要访问APP的用户。
4.2APP用户渗透率APP用户渗透率定义为访问该APP的用户数量占用户总数的比例。该指标可用于刻画该APP信息传播的覆盖范围和流行普及程度,用于量化评估某APP消耗运营商线路带宽的程度。根据用户-APP二分图模型,用户渗透率jcUP的计算如下式。从图中可以看出,同类APP每个时间段的用户渗透率分布呈现相似性,APP1,APP4和APP7的用户渗透率较高,其中APP7的用户渗透率最高,在H1-H4时间段的用户渗透率分别为43.71%,43.17%,48.80%和52.86%,说明此APP普及程度最广。而APP2,APP6和APP8在四个时间段的平均渗透率最低,说明该APP普及程度较低。
4.3APP用户使用率APP的用户使用率定义为用户对某APP的访问次数占所有访问次数的比例。根据用户-APP二分图模型,用户使用率jcUU的计算如下。从图中可以看出,除APP2,APP6和APP10之外的七个APP,每个时间段的用户使用率分布呈现相似性,说明H1时段是凌晨休息时段,上网信息的需求较低影响到了APP2,APP6和APP10的使用,而其他APP未受到影响。APP1,APP4,APP7的用户使用率较高,其中APP7的用户使用率最高,在H1-H4时间段的用户使用率分别为33.04%,39.55%,59.00%和51.93%。APP2和APP10使用率较低。从图5和图6可以发现,APP的用户渗透率和用户使用率表现出正相关的特性。
4.4APP用户粘性用户粘性又被称为顾客忠诚度,被定义为所有访问该类APP的用户的平均访问次数。用户粘性对于衡量用户是否对某一APP的服务产生偏爱,能否长期重复购买该产品具有重要的刻画能力,是衡量APP价值以及竞争力重要指标之一,对于提高顾客满意度有重要的指导意义。根据用户-APP二分图模型。用户在六天中四个时间段内访问APP的平均用户粘性如图7所示。从图中结果可以看出,APP8的用户粘性最高,在H1-H4时间段的用户粘性分别为76.46,50.88,31.39和34.08。APP9和APP10的用户粘性在10个APP中最小,说明APP9和APP10的竞争力最弱。还可以看出,除APP6和APP7外,在H3时间段其余APP的用户粘性均很小,在说明这个时间段内,APP6和APP7的用户粘性与其他APP不同,H3时间段对与提升这两个APP的用户忠诚度更重要。
4.5APP用户访问时段分布将一天分成四个时间段的实时数据只能表现用户的行为,一周之内连续六天用户对APP的访问情况则更能表现用户的总体行为。我们通过数据对比发现用户每天四个时间段对APP的访问模式并不会发生显著变化,所以我们选取一周之内连续六天的H2时间段,每个APP的用户渗透率,用户使用率,用户粘性变化情况进行统计。如图8所示,可以发现除APP2之外,其余APP用户渗透率在六天之内变化不大,基本上保持平稳。说明所比较的大多数APP的用户渗透率并因为工作日和周末而受到影响。还发现,使用率较高的几个APP,如APP1,APP4,APP7的使用率在连续六天变化并不大;反而是使用率较低的APP,如APP2和APP10使用率波动较大。所比较的10个APP中,用户粘性最大的APP8在连续六天内的用户粘性并不稳定,同样用户粘性不稳定的还有APP4,说明在用户粘性方面这两个APP在一周的中间时段需要提升。
4.6各类APP之间访问关联性分析根据APP关联图计算方法,可探究出APP之间的关联性,其现实意义是发现访问某APP的用户群还会访问哪些APP,用以发现类似的APP及类似的信息传播渠道。首先,建立二分图上APP之间的关联程度图ccGC,E。用实心圆来表示APP节点,APP的用户渗透率大小按照实心圆的面积大小来直观反映。节点的面积越大,对应的业务类的用户渗透率也就越高。边的权重表示业务类之间的访问关联性。我们通过数据对比发现用户每天对APP的访问模式并不会发生显著变化,所以我们对一天之内的APP访问关联性进行统计。以2014年3月3日用户对APP的访问日志数据为例,如图9所示,我们发现(1)在APP关联图中,节点的入度越大,说明该节点在网络中越重要。APP7的入度是最大的,为8。说明APP7与其他APP的关联更紧密一些,APP7是APP关系网络中关键的节点,是用户最普遍使用的APP。(2)21.37%的访问APP3的用户会访问APP7,而3.04%访问的APP7的用户还会访问APP4.
5结论
本文通过分析用户对移动互联网APP访问日志,获取相关数据,重点分析了用户对APP的兴趣范围以及用户在移动互联网中活跃度,10个移动运营商关注的APP的用户渗透率,用户使用率,用户粘性,以及APP之间关联性。文章采用二分图分析方法对用户对APP的访问关系进行建模,分析不同时间段,各个分析指标的变化,并给出和验证了他们之间的关系,对移动互联网的网络管理、运营决策等都具有重要意义。
作者:吴潇聂啸刘晓辉高诗梦曲冠南钮艳单位:国家计算机网络应急技术处理协调中心电子科技大学计算机科学与技术学院吉林大学计算机科学与技术学院