本站小编为你精心准备了网络搜查论文:兴趣地区的网络资源搜查评估参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
作者:付雯李响单位:重庆电子工程职业学院
兴趣相似度的计算方法
兴趣相似度反映出两个节点存储的文档之间的相似关系。相似度越大就说明两者的相似程度越高,就越有可能存储所查询的内容。本文中利用上述的基于向量空间的余弦法,具体的计算公式如下:本文中使用上述公式,既可以计算两个文档之间的相似度,或者两个节点之间的相似度,又可以计算文档与节点之间的相似度,由于在本文所设计的模型中,文档与节点的特征词向量中特征词的个数是相同的,即都是由m决定的,因此以上公式有很好的通用性。
公式中Va,Vb可以分别表示节点A,B的兴趣,也可以分别表示文档A,B的向量,或者是节点与文档的向量。m为特征词的个数,Wak为特征词tk在节点(或文档)A中的权值,Wbk为特征词tk在节点(或文档)B中的权值。由此可以看出,该公式主要计算两个节点(文档)都含有的特征词,当两节点(文档)没有相同的特征词时,则为0,即两者完全不相似。本文还设置一个判断两节点(文档)是否相似的阈值ΔL,用来决定后面进行的操作。
例如,当两节点(文档)的相似度大于阈值ΔL时,可以查询节点的本地资源列表,或者进行路由表的更新,否则这些操作可能会被忽略。以更新路由表时,计算两节点间的兴趣相似度为例,来具体说明相似度的计算过程。假设两节点(文档)的兴趣分别为:节点A的兴趣特征向量为:(1,0.93225),(6,0.87779),(9,0.87779),(4,0.87779),(2,0.78640);两个节点拥有的相同特征词为1,6,9,4。通过得到的A、B两节点间的兴趣相似度,用这个结果与ΔL相比较,即可得出两节点是否相似。
仿真实验及结果分析
(1)数据对象搜索的查准率(precision)和查全率(re-call)。在匹配方法上,Kad是查找与nodeID(可以理解为文件名)相匹配的文档;IBK虽然是按照特征词向量进行查询,但匹配时,都是查找与全部特征词完全相同的文档,因此搜索的匹配机制是相同的,查准率也就是相同的。在查全率方面如图1所示,在进行的10组查询中,改进后的IBK算法较原Kad算法,在查全率上有不同程度的提高,经过计算可知,平均查全率由原来的0.34提高到0.61,效果明显且稳定。这主要是由于,IBK算法是从查询语句中提取出多个特征词来表示一个查询语句,并与文档内容所提取出的特征词相匹配,更能够查找出潜在意义与查询相同的文档,实现了模糊查询的同时,提高了查全率。
(2)搜索效率。在搜索过程中,如果减少了访问节点数,但又不影响搜索结果,则会减少网络带宽的占用,提高搜索效率,所以本文用访问节点数量的多少来衡量网络的搜索效率。由于两种搜索算法是根据不同的原则转发查询,在查询过程中节点的访问数量以及获得文件的数量都会有所不同,因此无法从这两个方面直接比较。两种算法搜索效率的对比中可以看出,改进后的IBK算法在获得相同文件数量的情况下,比原Kad算法中节点的访问数量明显减少,经计算得知从原来的平均54.2个节点减少到目前的28.1个节点。这是因为IBK算法保留了原K桶查询机制的同时,将查询转发到更有可能存储所要查询的相似度较高的节点上去,缩短了查询路径提高了搜索效率。
结束语
本文将IBK将兴趣与结构化P2P有效地结合,一方面保留了结构化快速定位的优点,使得IBK中的查询能够快速的定位到兴趣相似度较高的节点,搜索效率有所提高;另一方面挖掘出节点的兴趣的同时,也实现了模糊查询,使得查全率明显提高。通过实验以及对结果地分析,证明了改进后的IBK搜索机制的有效性。