美章网 资料文库 期刊引文有效性识别研究范文

期刊引文有效性识别研究范文

本站小编为你精心准备了期刊引文有效性识别研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

期刊引文有效性识别研究

1引文有效性的定义及分析引文

引用是否有效的核心是施引论文中的观点是否真实有效的出现在被引文献之中。一般来说,引用参考文献通常有4种情况:1)引用有历史背景和意义的文献;2)引用实验中的方法;3)引用支持性或批判性的证据;4)引用相关文献用于比较。科研工作者出于上述目的在引用他人的概念、数据、观点时出于表达的需要,通常有直接引用、间接引用、转引以及隐含引用几种情况。无论哪种引用目的、哪种引用方式,参考文献的观点、数据、表述需要真实有效的出现在施引文献中,方可判定引文是有效引用。鉴于参考文献表明了科学研究的某种继承性,本文认为在施引文献和参考文献之间天然存在相关性,但一般情况下两者之间并不存在上下关系、同义关系或整体———部分等相关关系,施引文献和参考文献的整体相关性并不高。施引文献和参考文献两者相关只是因为施引文献引用了参考文献中的部分内容、观点或数据,即参考文献被引用的内容和施引文献中引用的内容具有相似性。一般来说,直接引用的内容相似性高,间接引用或转引的内容相似性略低。因此本文认为,如施引文献中引用的文字内容与参考文献中的某段表述、数据、观点具有相似性,则称为引文有效,否则则称为引文无效。对引文有效性的识别可用参考文献与施引文献引用的文本内容的相似性程度进行度量。

2文本相似度计算

一般来说,相关文本的两个或多个变量之间存在以下依存关系:上下关系、同义关系、反义关系、整体———部分关系,主体———属性关系等,反映出文本变量之间的关联。相似文本的变量之间则一般表现为同义关系、上下关系、整体———部分关系。由于应用场景以及需要解决问题、达成目标的差异性,学界对文本相似度尚没有统一定义。本文认为文本相似度分析是指对两个给定的文本通过词汇、语句、段落进行比较,判定两者的差异,从而确定文本的相似程度,通常用[0,1]之间的某个数值进行度量。相似性越强,数值越接近1(意味着比较的文本完全相同);相似性越弱,数值越接近0(意味着比较的文本完全不同)。

3期刊引文有效性识别方法与实现

对引文有效性的识别即对引用内容与参考文献内容相似度的计算。本文的引文有效性识别方法主要分成3步:文本表示,特征词权重确定,相似度计算。3.1参考文献的文本表示文本表示是指从参考文献和引用内容中抽取出能体现参考文献主要内容的特征词,以形成参考文献的向量表示,包括参考文献和施引文献引用的内容部分,主要解决抽取什么特征向量和抽取多少特征项量的问题。期刊论文是人类自然语言的文本表示,属于非结构化信息。为了便于计算机处理论文信息,需要将论文进行预处理,即将非结构化的论文信息转化为能够被计算机直接处理的结构化文本信息,通常有分词和去停用词两个步骤。分词就是将待比较的论文切割成单个的词,并根据词性进行标注。目前常用的汉语分词系统有:ICTCLAS分词系统、HTTPCWS、SCWS———简易中文分词系统、PhpanAl-ysis、盘古分词、MMSEG4J无组件分词系统以及中国科学院的NLPIR中文分词系统。NLPIR中文分词系统可以基于信息交叉熵自动发现新特征语言,从较长的文本内容中自适应测试语料的语言概率分布模型,实现自适应分词,在本文的期刊引文识别方法中分词效果最好,是本文主要使用的分词方法[6]。文本预处理的第二步是去停用词。所谓停用词是指出现频率较高但实际意义不大的词,包括连词、叹词、语气词等没有实际意义的功能词以及地名、人名等词汇词。去除、过滤停用词可以有效降低文本相似度计算的误差,提高计算效率并节省存储空间。目前使用的停用词都是根据人类经验非自动化生成的,由此汇集而成停用词表,目前尚没有普遍应用的通用停用词表工具。已有停用词表包括哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等。3.2特征词权重确定特征项的权重计算是期刊引文识别中极为重要的过程,和文本相似度计算的效率密切相关。TF-IDF(TermFre-quency-InverseDocumentFrequency)权重计算方法是向量空间模型中最常使用的权重计算方法之一。TF-IDF的主要思想是词语的重要性跟它在文本中出现的次数成正比,但跟它在语料库中出现的次数成反比。3.3相似度计算及引文有效性判定本文使用相似度来表示文本间的相似程度,相似度越大文本间差异就越小,文本越相似。余弦相似度是实践中非常有效的一个相似度度量方法,其思想是通过计算两向量间夹角的cos值来度量文本间的相似程度,夹角越小,余弦值越接近于1。

4实验及结果

实验选用某本刊2015年第一期为实验文本集,获得论文25篇,参考文献260篇。出于数据获取的便利考虑,本研究剔除了图书、报纸、专利及外文类等参考文献,获得中文论文类参考文献95篇;作为比对,在每篇论文中随意划取一段叙述作为引用内容,并增加无关参考文献1篇做为虚假引用的参考文献(为了回避偶然性,取其它学科论文做为参考文献),获得虚假引文25篇。经过文本预处理之后,根据向量空间模型,分别计算期刊论文与参考文献和虚假引文的余弦匹配度。

5结束语

文献的不当引用是一个长期、复杂且相对隐蔽的现象,既属于学术道德问题,又属于学术规范问题。对期刊虚假引文的有效识别只是规范引文不当引用的第一步,但无法解决引文引而不注、过度引用、模糊标注等问题[9]。广大学者、期刊界、管理者应共同重视引文不当问题的紧迫性和重要性,逐步推出针对不当引用行为的监督、奖励机制,鼓励广大学者及编辑人员发现、修正虚假引用、引而不注、匿引等不合理引用问题,为不端引用行为监督工作提供可靠的依据。