美章网 资料文库 用户日志的相关搜索研究范文

用户日志的相关搜索研究范文

本站小编为你精心准备了用户日志的相关搜索研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

用户日志的相关搜索研究

《信息技术杂志》2015年第二期

1基于用户日志相关搜索模型

1.1基本思想搜索引擎查询日志中的session是指某一用户为了检索到某个信息,而在一段时间内采取的连续搜索行为{Q1,Q2,Q3,…}。在以往平台使用的相关搜索中,因为考虑到用户使用的检索条件多为关键字的形式(这里将查询条件中,一个查询词组或者查询字定义为一个关键字),所以仍然使用的方式是关键字和文本信息相匹配的方法[4]。本文的背景是研究合适某集团业务使用的设计实现,该套系统不仅针对公众开放,同时设计也需满足内部客服员工的使用。对于集团内部的使用就对设计有了特殊要求,比如:客服员工在接受问询的时候可能会很迅速地改变查询目标,这就使得Session的划分很难按照常规的时间方法来实现。Jansen,D.He在实验中取得,当时间在10分钟~15分钟之间的时候,划分Session,Session内包含的信息趋于稳定,这是一个合适的临界取值区间。但这并不适用本文的状况。根据实际情况尝试将Ses-sion时间划分碎片化,将所有日志信息分割为微小单位,建立得到相关搜索的扩展集合。在扩展集合的基础上为用户提够检索推荐[5]。

1.2模型描述首先要清楚初始数据的关联关系,现在用一个查询关系图来描述这些待用关键字。关键字既有的关系:Rq=<Wq,Eq>是用来描述查询内容。Wq是用户生成的查询关键字集合{w1,w2,w3,…},Eq={e}是有向边的集合,它代表关键字wi→wj的联系。同时有v反映关键字wi→wj边的关联价值,也是对e的评价。根据Session的特点,已经知道在同一Session下看作是同一用户的操作行为。用户在发送检索需求时,并不能两到三次的检索行动就一定达到目标需求。所以,这过程中,用户可能发生多次对关键字的修正,将这形象的比作为一个沿着从零开始的时间链条单方向行为。最终建立的扩展集合是总结所有用户发生的单方向链条,所以其他用户在检索一个目标时,可能是从其他用户的非零时间切入,这就使得整体查询关系图变的交织复杂。这对建立可扩展集合很不利。本文需要发现并建立清晰明了的关键字关系,所以将复杂的检索关系切割,让它们成为唯一的关系对,而不是关系链条。因为本文是面向领域专一的集团业务,所以数据量的大小是一个可承受条件。本文将得到的唯一关系对表述为Relate=<Query1,Query2>,在描述这对关系的时候,需要加上一些必要的注释因子,将这些注释因子看作关系对的属性,所以关系对可以表示为Relate=<Query1<Query2,Object>>,这里的Object是这对关系的注释因子[6]。这个表达式是本文对唯一关系对进行处理和表达方式。图1是表示相关词对处理形式。

1.3扩展集合规则设立依据实际需要,需要设定一个对现实需求有帮助的Session时间划分阈值[7],在经过人们对集团用户使用习惯的统计分析,设定15秒的阈值为所需要的合适Session时间划分。在马尔科夫模型中,在给定当前知识或信息的情况下,过去的历史状态对于预测将来状态是无关的。现在有随机变量的数列X1,X2,X3,…,这些变量的范围,即他们所有可能取值的集合,Xn的值则是在时间n的状态,在一定时间阈值内发生的状态偏移也是连续的,Xn+1是在时间n+1的状态,Xn+1不仅在时间上,在相关性上也是Xn的一个延续[8]。如此就知道了需要建立的可扩展集合的外部状态,在每次获取用户的关键字同时,本文会获取的信息包括SessionID,关键字发生时的时间Time(t),用户点击的URL。设定了扩展集合的时间准入,即它的Session时间阈值。因为用户日志的数据量巨大,必须对它继续筛选。我们设定了一系列的度量值。或者wi''''∩wj''''不为空,显示是用户对关键字的替换修正。这两种修正关系表示关键字间是有价值的。此时的μ标记初始设置为1。当μ>0时,认为它符合我们数据的有意义要求,是有价值的。

1.4关键字权重设定在建立的扩展集合,不但需要使用模型的关键字对,同时需要每个关键字的属性描述,既是前文讲到的Object[10]。此时,要考虑的是如何反应这些关键字的关联强弱,也是影响它反应给用户的排名权重,本文将权重记为K。在Object属性中有一个描述是heat。它的作用是标记用户日志中发现该条数据的重复程度,在权重公式中记为h。反映检索相关程度的权重公式:例如:在扩展集合中有<q0,q1><q0,q2>,q1属性heat为10,ε为5,q2属性heat为15,ε为8。这个时候它们的权重就分别为1.7333和2.1333。权重数值较高的关键字选项q2在展示结果中会排列在q1前面。基于用户日志的可扩展集合生成流程步骤如下:Step1在接收到用户每一个检索需求时,记录下用户提交的信息,封装为一个对象。Step2将对象逐次入队列操作,同时对队列进行出队列操作。在出队列操作时要经过建立的中间字典筛选。在中间字典中要判断有无该条ses-sionid数据,没有新存入;有,则判断λ,μ。Step3在判断λ合法性时,不符合要求新存入中间字典,删除原有中间字典中对应数据。全部符合要求的数据到扩展集合中,重复的改变原有数据的heat值,不重复,进行新存入集合操作。在属性描述中的属性heat和增加新数据时候,都要求作下标记留作以后入库时候的增量更新使用。Step4在中间字典中,数据的合法性时间都很短,但它在内存中数据量是一个无限增长的过程,所以设定十分钟对它进行一次清理操作,保持系统的轻巧性。在每天用户操作较少时刻,进行定时操作,将数据分析存入文本和数据库。

2实验结果

为了验证本文系统设计的有效性,我们将设计完成的系统和原有未经优化改进的集团检索系统进行性能对比。本文没有采用集团公司的语料进行测试,而是在网络取网易,新浪和搜狐等知名中文门户网站信息,抓取10000个文档,建立索引测试。测评系统的性能标准,实验为系统设定了两个评价标准。一个是精确率(Precision),另一个是召回率(Recall)。由于研究已表明一般用户查看检索结果时主要查看系统提供的前两页,以及本系统设计的特性,本实验通过分析返回结果的前20条记录来评价查准率。召回率实验通过人工标记的办法,对两个系统分别测试,并进行比对比较。实验选取10组相同的检索词条检索返回结果评定精准率。由图2可看得出原有的系统性能精确度平均值为0.575,而优化后的系统在该指标上的平均值为0.803。优化改进的系统比原有的系统在Precision指标提高了36.9%。从实验结果可以看出指标Recall有很大提升,图3显示查全率从0.729提升到0.871,提升了19.4%。总体而言,经过本文的优化和改进,明显的提高了原有使用系统的性能。

3结束语

在实验过程中发现系统才开始启用的时期存在一个问题,即用户日志的数据量不足产生的影响。这将使本文的模型建立和运用无法得到最好的效果,此时可以结合局部文档相关反馈技术的方法,在文档集上建立相应的文档扩展集合,根据一定的排名方法,将两个扩展集合中的关键字,按照一定比例链接起来,提交给用户做相关搜索使用[11]。在系统逐渐成熟时,可以考虑建立单一的模型,供用户在使用中选取合适的相关推荐。本系统运行结果的相关达到率达到了一定精度,特别是本文建立在基于用户日志上的扩展集在建立的过程中,有自己的筛选办法。本文分析数据相关性程度达到需求时,就可以推断这是一个稳定结果良好的相关搜索检索方式。

作者:史杰施恒利杨辉单位:江苏科技大学计算机科学与工程学院

精品推荐