美章网 资料文库 多期刊比较下的论文被引频次影响因素研究范文

多期刊比较下的论文被引频次影响因素研究范文

本站小编为你精心准备了多期刊比较下的论文被引频次影响因素研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

多期刊比较下的论文被引频次影响因素研究

摘要:[目的/意义]目前关于论文被引频次影响因素的研究存在多数考察单一因素、忽视期刊影响力控制和缺少期刊及学科间异同比较等问题。在人为控制期刊影响力因素的前提下,探究不同期刊刊载论文被引频次影响因素并总结共性因素和比较差异性。[方法/过程]以WebofScience数据库中15本分属不同学科类别的代表性期刊刊载论文为样本,利用回归分析方法,对被研究较多的8个论文被引频次可能的影响因素分别进行实证检验。[结论/结果]在控制期刊影响因子的前提下,各学科期刊影响论文被引频次的因素既有共性,又有差异性。参考文献的引用半衰期在15本期刊中都对被引频次有显著负影响,参考文献数量在大多数期刊中也与被引频次显著正相关,论文篇幅在所有期刊中都不会影响被引频次,其他因素在不同学科期刊中对被引频次的影响差别较大。结合实证结果,对科研工作者如何利用论文外在因素来产出高被引论文提出相应建议,并对使用被引频次来评价论文质量的合理性进行探讨。

关键词:论文被引频次;引用半衰期;科研论文评价

0引言

如何合理地评价科研论文质量是一个长久以来备受关注的重要课题。现行对科研论文质量进行评价的方式主要有两种,即文献计量学评价和同行评议[1]。论文的被引频次是文献计量学评价中最常用的一个指标,一般来说,在排除负面引用和不正当引用的情况下,被引频次越高代表论文质量就越好[2]。虽然被引频次存在时滞性等局限,加之近些年来随着替代计量学(Altmetrics)的兴起,传统的文献计量学评价受到挑战,但鉴于指标的客观性和易获取性等原因,用被引频次来评价论文质量依然是最为常用的方式。被引频次分布是不均衡的,“少数论文受到大量的关注和引用,而大部分论文的被关注和引用量却很少”,这一偏态分布现象已成为学界共识。那么是什么原因导致了被引频次的偏态分布呢?首先,既然被引频次被用作表征论文质量,那么论文质量就应该是决定被引频次最重要的因素,质量越好的论文越能得到同行的认可,被引频次就应该越高;其次,除论文本身质量这一内在决定性因素外,国内外学者经过研究发现,其他一些外在因素也会影响到论文的被引频次,虽然这些研究的结论并不完全统一。与概念相对模糊和测量较为困难的论文质量因素相比,对可能影响论文被引频次的外在因素研究更具有现实可行性。而且较好地看待和处理外在影响因素,也会提升论文的质量,如很多高水平研究都是建立在较好地吸收高质量文献知识的基础上而实现的。本文对涵盖自然科学、技术科学和社会科学在内的多本期刊上的论文进行研究,探究影响其被引频次的因素的相似性和差异性,以求为本主题提供有价值的研究结论以及为学者实施科研活动和撰写高水平论文给予些许实践启示。

1文献综述与研究假设

1.1文献综述

国内外学者在测度影响论文被引频次的外在因素上已开展了大量工作。总的来说,这些因素可以划分为三大类,即期刊因素、作者因素以及论文本身因素[3]。期刊因素方面,“发表在高影响力、高等级期刊上的论文更容易得到关注,有很大几率能够成为高被引论文”这一结论已经基本成为共识[4]。此外,随着期刊出版模式的发展和改变,学者发现论文是否可以开放获取也会影响到论文的受关注度和被引频次[5]。作者因素方面,科研合作对被引频次的影响最受关注,包括合著和独著[6]、机构合作[7]和国际合作[8,9]等形式。除科研合作外,衡量作者声誉和科研能力的指标比如h指数、已数等[10],作者所在机构的研究实力[11]等,也可能与被引频次有关。论文本身因素方面,普遍认为综述类论文的篇均被引次数明显要比研究类论文高[12]。而研究话题的新颖性[13]、参考文献[14-15]和基金资助[16]等因素也会对被引频次产生不同程度的影响,甚至还有学者研究了文本因素[17-18](包括关键词个数、题目和摘要长度、论文篇幅、可读性)与被引频次之间的相关关系,尽管这些因素与我们的“通常的认识”并不符。上述文献尽管探讨了各种各样的因素,但大多是研究单一因素与被引频次之间的关系,而该做法并非合理。因为被引频次是多种因素共同作用的结果,只考虑某种单一因素具有很大的偶然性,在控制其他因素不变时研究某一因素才有意义,因此有必要将多种可能的重要影响因素综合纳入到分析模型中去研究。已有学者在研究中对影响论文被引频次的各种因素进行了综合性的考察:YuTian等[19]以WebofScience中图书情报领域的20份期刊为样本,验证了其所选的四大类共24个指标均对论文被引频次有影响,同时显示了逐步回归分析在预测被引频次上的可行性;王海涛等[20]对WebofScience收录的20种经济学科高水平期刊在2000-2014年间收录的论文进行回归分析,发现作者数量、参考文献数量、论文长度、是否基金资助、期刊影响因子、发表年份以及研究方向等因素都会对被引频次产生影响。尽管如此,这些研究多是以某单一学科领域为研究对象,所验证影响因素在其他学科的适用性仍存疑。虽然有少数国外学者将研究范围扩展到三四个领域[21-22],但还不足以说明学科间的差异性,因而有必要扩大研究领域,开展不同学科间的对比研究,发现其异同。

1.2关于期刊及其影响因子是否可作为影响因素的认识

如前所述,论文被引频次与其所在期刊影响力存在显著正相关,这已被众多研究所证实,而这其实存在内在的必然性。一方面高影响力期刊为了维护期刊声誉,对论文的质量、创新性等要求较高,能在高影响力期刊上发表的论文已经过严格的同行审议,质量上能够得到保证;另一方面发表在高影响力期刊上的论文会受到同行更多的关注,潜在地增加了被引用的可能性,并且科研工作者为了扩大其成果的影响,也倾向于将手中高质量的论文投向高影响力的权威期刊,长此以往导致绝大部分高质量的论文都集中在少数影响因子高的期刊上,即形成期刊载文上的“马太效应”。鉴于论文质量与期刊影响力之间的互惠性关系,期刊层次影响论文被引频次也就顺理成章。而正是因为如此,期刊作为论文被引频次的影响因素来研究就存在商榷之处。从知识生产角度而言,期刊投稿和发表已非论文知识生产的所属环节,其只是知识成果(预期)发表的载体形式。也就是说“期刊层次是影响论文被引频次的重要外在因素”并不能真正帮助科研工作者提高论文的科研质量,期刊发表已是科研创作的完成时。“发表高影响力期刊”至多只能成为作者在科研过程中提升论文质量的重要驱动力,而非论文生产过程中存在的现实影响因素。已有研究将期刊及其影响因子作为影响因素来考察,有一重要原因即均是将某学科下多份期刊论文放在一起作为研究数据来分析,而这些数据的验证结果通常是影响因子的差异表现最为显著。尽管也有文献通过计量模型,对期刊影响因子进行控制后,再来研究其他因素的作用,但仍存在偏颇。首先,不同期刊对论文的内容质量控制和出版规格很可能也要求不同,如各期刊对论文版式要求和排版印刷习惯的差别可能使诸如篇幅等论文本身因素的测算存在较大误差。其次,即使同一学科下的多个期刊间,由于针对分支领域的不同,刊载论文的被引频次也会存在较大差异[23],如能源经济子学科在经济科学领域就占有被引优势。最后,既然期刊层次在很大程度上影响被引频次,为何同一本期刊收录的论文,被引频次也通常呈现偏态分布?对多个期刊整体进行分析,影响因子的作用表现会过于显著,反而可能忽视背后真正有价值的因素。鉴于以上原因,本研究认为要想严格准确地识别出影响被引频次的价值性因素,不应将多个期刊论文纳入到同一个模型中研究,而是需要将期刊这一重要的影响因素排除在外,而最好的处理方式就是只对同一期刊上的论文进行比较验证。

1.3研究指标与假设提出

在剔除期刊因素后,笔者从知识生产要素角度,将可能存在的影响因素分为四类,并遴选出各自的代表性指标,结合前文的文献综述,进而提出研究假设。整体而言,科学知识生产就是科研主体在科研资源条件的支持下,通过一定的生产关系,作用于科研知识基础,创造出科研成果。

1.3.1科研主体及其生产关系

科研人员为了达成某些科学目标,往往会主动寻求科研合作[24]。许多研究发现科研合作能提高论文影响力,因为一方面科研合作能“集思广益”,为科研项目“提供更丰富的研究思想、方法和资源”[25],另一方面作者人数较多时也有助于扩大论文的影响力,潜在地增加了论文被引的可能性。据此提出假设1,即H1:作者人数、机构数、国家数对被引频次有显著正影响。

1.3.2科研知识

基础科研知识基础体现为参考文献。参考文献是论文重要的组成部分,许多研究要建立在前人的基础之上,有关参考文献的作用曾被多次讨论,涉及到的指标包括参考文献的数量、质量以及时效性等。参考文献的数量越多,可能代表作者经过广泛的资料收集和前期调研;参考文献越新,说明该项研究成果的研究主题、技术方法等较新;而参考文献的质量(通常用参考文献的被引频次来表征,但这一数据较难获得)越高,说明该项研究是建立在较高质量的研究成果之上,这些都有可能提升科研成果质量、增加论文被引频次。鉴于指标的易获取性,本文选取参考文献数和引用半衰期(最新一半的参考文献距今的时间)这两个指标,并提出假设2,即H2:参考文献数越多,引用半衰期越短,被引频次越高。

1.3.3科研成果

本身已有不少学者研究了文本因素对论文被引频次的影响,所选因素包括代表成果整体信息量的论文篇幅和代表成果基本信息特征的篇名、摘要和关键词等因素,后者在已有研究中出现较多的有篇名长度、摘要长度、摘要可读性和关键词个数等指标。相对于论文篇幅和摘要可读性指标,篇名长度、摘要长度和关键词个数与论文质量并不存在合理的逻辑关系,因而本文只对论文篇幅和摘要可读性指标进行检验。论文篇幅用文章页数来衡量,度量摘要可读性所用的方法是FleschReadingEase(弗莱士易读度)。弗莱士易读度是美国Flesch博士提出的一个经验性公式,分数越低表示阅读的难度越大,该公式是目前世界上广泛使用的检测易读性的公式,并被微软公司嵌入到OfficeWord中,其在文献计量学中的适用性也得到验证,被认为是一个“不错的粗略估计”[22]。基于此,提出假设3,即H3:论文篇幅越长,论文包含的信息量越多,问题被讨论得越细致,被引频次越高;摘要可读性越高,该文的摘要越容易被理解,也更有机会被读者使用,被引频次也越高。

1.3.4科研资源条件

基金资助是科研资源条件的主要表征。由于基金申请要经过同行对项目的创新性等进行严格的评议,通过的项目往往在创新性方面较高,因而有可能产出高质量论文;此外获得基金资助后也有利于提升科研设备水平、拓宽调研考察范围和增加学术交流机会,进而可能会提升科研质量、增加论文被引频次。据此提出假设4,即H4:有基金资助的论文比无基金资助的论文被引频次要高。

2数据遴选与模型选择

2.1数据遴选

合理地选择期刊及其刊载论文数据对研究结果的准确性具有重要意义。本研究着力于论文被引频次影响因素的多期刊间比较,而“多期刊”可分为不同学科的期刊间比较和同一学科内的期刊间比较两种情况。考虑到前文提及的“期刊专业性与否对其刊载论文被引频次的差异影响较大”情况,同时也尝试扩展到对学科间的初步比较,本研究选择对不同学科的专业性期刊进行比较。本研究基于以下原则进行期刊及其论文数据的遴选。首先,笔者选择了涵盖自然科学、工程技术科学和社会科学三大系统的15门学科,每门学科也考虑到了在ESI分类体系的分布性。其次,所选期刊专业性较强、学术质量高。研究主题对论文的被引频次存在直接和关键的影响:不同学科的影响因子差异较大,同一学科的不同子领域期刊的被引倾向性不同,而同一期刊话题差异较大的文章的受关注度也有很大区别,因而,本研究尽量选择主题较为集中的期刊,而非学科领域内的综合性期刊。当然,所选期刊均为该学科领域的权威性期刊。然后,所选期刊发文量要足够大,这为模型可以提供充足的样本数据。最后,考虑到各学科及其期刊的引文周期,选择相对合理的发文年份。因为选定的年份如果离现在太近,会使被引频次有较大误差,即使是同一年发表的论文,1月和12月发表的论文之间也存在较大时间差,因此选择的年份要使各论文的被引频次基本趋于稳定。基于以上标准,在WebofScience数据库中下载以下15本期刊收录的Article类型论文数据。

2.2回归模型介绍

本文拟选用多元线性回归模型来研究各因素对论文被引频次的影响。在对模型进行估算之前,首先需要了解被解释变量的分布。论文的被引频次是非负整数的离散变量,是典型的计数数据,对于这类计数数据,如果采用一般的线性回归会产生无效和有偏的系数,因此需要采用计数模型进行回归分析。常用的计数模型有泊松回归和负二项回归,前者要求被解释变量的期望与方差相等,当方差明显大于期望,即存在“过度分散”的特征时,考虑使用后者。此外,如果计数数据中含有大量的0值时,考虑使用零膨胀泊松回归或零膨胀负二项回归,究竟该使用哪种模型可以采用LR检验、Vuong统计量等进行判断[26]。

3实证检验与结果分析———以IEEETIP期刊为例

IEEETransactionsonImageProcessing(TIP)期刊是图像处理及计算机视觉领域的顶级期刊之一。2013年IEEETIP期刊共发表Article类型的论文427篇,各变量(不含“有无基金资助”这一虚拟变量)的描述性统计结果见表2。

3.1变量之间的相关系数检验

为避免由于变量之间存在显著的相关关系导致出现多重共线性问题,本文采用Spearman秩相关系数对变量之间的相关关系进行检验,见表2。从表2中可以看出,大部分变量之间的相关系数都很小,绝对值均低于0.6,自变量之间不存在严格意义上的多重共线性,可以将其纳入同一回归模型进行实证检验。

3.2回归模型选择与结果分析

427篇论文的被引频次分布直方图如图2所示,其中横轴表示论文的被引频次,纵轴表示频数。

4论文被引频次影响因素的学科期刊间差异

鉴于论文篇幅,对其他14本期刊进行回归分析的过程不再一一列出,表4汇报了各回归模型的简略结果。从表4中可以看出,选定的8种因素对论文被引频次的影响基本上可以分为四种类型:a.参考文献的引用半衰期在15本期刊中都与被引频次呈现显著负相关关系,即引用的参考文献越旧,对被引频次的增加越不利,从系数的数值可以看出这种作用非常显著。可能的原因是,现在科学知识的更新换代速度极快,陈旧的参考文献除特别经典的外,可能在研究方法、结论、话题的新颖性等方面都有些过时,以这些参考文献为研究基础的科研成果可能质量不高、被引频次偏低。b.参考文献的数量在大多数期刊中也表现出了对被引频次的显著正向影响,即参考文献数越多,越有利于被引频次的增加,虽然从系数的数值来看这种贡献度很小。科学研究大多是要建立在前人的基础之上,参考文献数越多,说明研究经过充分的资料收集和现有研究成果总结等,因而有助于明确方向、避免错误、提升科研质量。c.论文篇幅在所有期刊中都与被引频次不存在显著相关性关系。虽然在一般的印象中,论文篇幅越长,可能问题被讨论得越充分,包含的信息量越多,但本文的研究表明该因素并不会对被引频次产生影响。这可能是因为论文篇幅与作者的行文写作方式、期刊的排版方式关系更大,并不能说明信息量的多少;或者即使信息量较大,但能影响被引频次的依然是这些信息的质量。d.其他因素只在少数几个期刊中与被引频次有显著相关性,甚至有些因素在不同期刊中对被引频次的影响效果相反。这说明这些因素都具有比较大的偶然性,对科研质量的提升作用因期刊和学科而异。需要说明的是,虽然国家数只在少数期刊中与被引频次有相关关系,但国际合作对论文被引频次的正向影响已得到众多研究验证。比如邱均平等人研究也显示[25],国际合作论文的被引频次总体上高于国内作者的论文,但国家数量与被引频次之间仅存在弱相关,因此在后续研究中引入“是否为国际合作论文”这一虚拟变量来替代国家数是有必要的。对机构数的处理和讨论也存在类似情况。

5结论与启示

本文研究结果表明,在对期刊影响因子进行控制的前提下,参考文献的引用半衰期在所有15本不同学科的期刊中都表现出了对论文被引频次的显著负影响,引用半衰期越长对被引频次的增加越不利;参考文献的数量在多数期刊中也发现与被引频次有显著正向影响;论文篇幅在所有期刊中均未发现对被引频次有显著影响;其他指标对被引频次的影响在不同期刊中有较大差别。尽管本文结果验证多为“阴性表现”(多数假设并不显著),但反而厘出除论文质量和内容话题之外的在学科间更具普遍意义的影响因素,即作为学术论文知识基础的参考文献。当然,本研究选定的15本期刊并不能完全代表各自学科(尽管如此,依然可以看出各学科之间存在较大差异性),还应扩大学科内的期刊遴选数量和选择更多学科领域,来研究学科内部以及学科之间论文被引频次影响因素的异同。本研究对科研工作者论文撰写、科研论文评价以及科学计量学学科有一定启示。首先,对科研工作者来说,要想扩大论文的影响力,增加被引频次,归根到底要在论文质量上下足功夫。提升论文质量非常重要的一点就是要主动关注本领域的前沿成果,把握学科发展的最新动向,充分地参考和总结前人文献,以此来提升科研质量。此外还可以加强国际合作,行文写作时尽量做到易读性强等。其次,在科研论文评价方面,本研究也可以反向论证被引频次作为论文质量评价的可行性。除了期刊影响因子这一与论文质量密切关联的外在因素外,其他一些因素也可能会对被引频次产生影响。然而经过控制期刊影响力和扩大实证调研范围后,发现引用半衰期、参考文献数量等与论文质量之间存在内在逻辑的因素,确实会影响论文被引频次。而论文篇幅等容易“人为操作”的因素,并不会对被引频次产生实质影响,假使这些易操控因素也能影响到被引频次的话,那被引频次就不应作为评价论文质量的指标。因而,通过真实关联因素的作用验证侧面说明了用被引频次来衡量论文质量相对合理。最后,就科学计量学学科而言,许多似乎已被证实的观点仍需通过控制相关变量或扩大调研范围,更加细致谨慎地进行数据验证和理论逻辑论证。