美章网 资料文库 生存分析法在学术期刊评价上的应用范文

生存分析法在学术期刊评价上的应用范文

本站小编为你精心准备了生存分析法在学术期刊评价上的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

生存分析法在学术期刊评价上的应用

0引言

学术期刊是由学术论文组成,论文质量决定论文价值,论文的价值大小直接影响到期刊的质量。近年来,对论文质量的衡量研究也逐渐受到研究人员的重视[1-3]。论文的价值可通过被引行为体现,而被引行为随时间推移有兴衰变更,即论文价值的大小变化,体现出类似生物体的生命周期现象,论文价值大小的变化表现为论文的生命周期现象,是论文老化过程的体现[4]。本文将在医学领域已得到广泛应用的生存分析法引入到期刊评价中,从论文层面入手映射到期刊层面,以期为期刊评价中信息老化理论的研究注入新的研究视角和思路。期刊文献老化速度或新颖性的测度指标是多样的,但对时间维度的纳入程度及方式却不尽相同。从共时与历时的分析角度来看,大部分指标属于共时分析,如普莱斯指数、引用半衰期,极少有指标采用历时分析的,如被引半衰期;从统计被引信息与时间的关系来看,绝大多数指标的方式是统计某段时间内期刊的被引量,较为宏观。这些衡量期刊文献老化、指标都只是对实际情况的一种理想化、概略性的测度指标[5]。这就对文献老化理论的研究与发展提出了迫切的要求。相对于已有的这些老化指标,本研究从历时分析入手,微观统计在监测时间段内期刊单位时间的被引频次分布数据,尝试性引入生存分析法,初步探究生存函数在期刊评价方面的应用,探索期刊文献的生命规律,以期为期刊评价工作注入新的视角。

1生存分析方法

生存分析法源于医学领域,由于其在分析时序数据等方面的优势,逐渐被应用到多个行业领域,如工程学、金融业、保险业等。近年来,有学者将生存分析法应用于网络信息、专利信息等不同类型信息的老化规律研究[6-9]。这为生存分析在期刊评价上的应用提供了理论基础与参照。

1.1生存分析的含义

生存分析是指将终点事件和出现此事件所经历的时间结合起来进行分析的一种统计分析方法,是研究生存现象和现象的相应时间数据及其规律的方法[10]。通俗来说,生存分析是研究一个或多个生物,在经过某一特定的时间后,将发生某种特定事件(称为终点事件)的概率,是一种动态研究某个现象或因素随时间变化的规律的统计方法[11]。生存分析法主要通过构建生存模型(生存函数、概率密度函数等),计算出各个时间点上的危险率,即所研究的对象的生存时间及其发生状态转变的可能性。

1.2生命长度及生存数据

在生存分析法中,生存时间是指从某点开始到被观测对象发生终点事件所经历的时间。对于期刊论文来说,生存时间可以称为生命长度,是指论文自见刊之日起至失效(即失去利用价值)所经历的时间跨度。判断信息失效是生存分析法运用到期刊评价过程中至关重要的阶段。在大多数研究中,实验的时间检测窗口是固定的,但研究对象进入检测窗口的时间是不同的,并且在检测时期内生存时间情况也不尽相同。因此,生存数据可以分为完全数据和删失数据。(1)完全数据:实验对象的起点和终点均落在时间窗口内。在本研究中,如论文的发表时间及失效的时间点都在2008年1月至2015年12月,该论文就属于完全数据。(2)删失数据:或称为结尾数据,包括左删失、右删失和区间删失。左删失数据指检测窗口起点前样本中已经发生了研究事件的数据。在本研究中,是指发表时间早于2008年1月的论文,在本研究的数据集中不涉及该类数据。右删失数据指在监测时间终点仍未发生终点事件的样本。在本研究中,是指在达到监测时间2015年12月时,仍未失效的期刊论文。区间删失数据指只能确定事件发生在某一区间内,但无法准确得知发生的时间点。在本研究中,并不涉及该类型删失数据。

1.3生存函数

在生存分析法中,生存时间的分布常用下列4个函数来描述生存过程,即累积生存函数、分布函数、密度函数、危险率函数[11]。这4个函数在数学上是等价的,给出其中一个函数,可以派生出其余3个函数。以下从论文角度对生存函数进行介绍。

1.4双比例失效法

在评价中应用生存分析法时,终点事件即期刊论文“失效”的判定颇为复杂。本研究认为,期刊论文自发表之日起便拥有了一定的价值,其价值体现在被其他文献引用的行为中,随着时间的延长,论文将经历单位时间内被引频次越来越高、在某单位时间点被引频次达到峰值、随后逐渐降低至很少被人引用甚至不再被引用的生命周期。现假定某篇论文在连续T个单位时间内没有被引用,可以认为该论文在这T个时间后被大量关注或使用的概率不高,以此来判定论文失效,其中连续零被引时长T被称为判定论文失效的有效时间间隔。因此,定义生命长度为自论文见刊之日起至判定该论文失效的有效时间间隔T的起始时刻为止所经历的时间长度。可见,T值是判定论文失效与计算论文生存时间的关键。为确定T值,引入了双比例失效法,该方法有以下几个主要步骤。(1)预设双比例阈值P1、P2。经验性通常设为80%、90%。其中,P1规定失效论文在生存时间内的累积被引频次占检测时间段内总被引频次的比例,即有效累计被引率应达到的值;P2规定达到P1值的论文量应达到的比例。(2)递归判断。当T=i(i=1,2,…)时,判别失效论文,分别计算每篇失效论文在生存时间内的有效累计被引率。(3)判断每篇失效论文的有效被引率是否达到P1。(4)统计满足条件(3)的论文数量,计算该论文量占样本总量的百分比,判断符合P1的论文量是否达到阈值P2:如果该比例小于P2,则T往后取值,从第二步重新计算;如果该比例大于等于P2,则将对应T值作为判断该领域论文失效的时间间隔。通常,经过双比例失效法得到的T值有多个,而在本研究中,取最小值作为判定论文失效的有效时间间隔值T。实质上,T值与双比例阈值P1、P2之间是相互影响的,由预设的P1、P2值,通过双比例失效法遍历寻找到的有效T值,并在此阈值对下确定有效T值的大小及各类型论文的比例情况,可以反向判断预设的双比例阈值是否合适,从而对阈值对进行调整。

2实证研究

2.1数据来源与处理

评价对象为30种物理学科中文期刊,数据来源于中国科技论文与引文数据库(CSTPCD),以2016年为原点,向前追溯收集这些期刊集合在2008—2015年发表的论文及在被引关系中涉及的论文信息(共86375条记录)、30种期刊所的被引用关系记录(共115248条记录)及施引和被引期刊的年发文频次信息(共1698条信息)。数据清洗(去除冗余记录、重要信息缺失记录等,补充或修正期刊年发文频次信息等)及数据表结构转换过程,在此不作赘述。在此需要说明的是,在确定论文出版时间时,由于CSTPCD不直接提供期刊每期出版具体时间,并且对于双月刊、季刊等类型期刊,不同的期刊选择发表的月份是不同的,考虑到研究的可行性问题,统一把出版周期内最后一个月作为出版月。由此得到可用于生存分析的论文被引时序分布表,如表1所示。其中,-1对应论文见刊前的时间,0说明论文在该时间节点未被引用,正整数为论文在该时间节点处对应的被引用频次。

2.2数据统计

CSTPCD收录的母刊集在2008年1月至2015年12月的发文量、被引频次、施引论文数、施引期刊数量等信息如表2所示。样本数据集中,《物理学报》发文量最高,其次为《光学学报》,而《光谱学与光谱分析》的施引期刊数量最高。

2.3数据分类及T值判定

根据生存数据的分类特点及论文在监测时间段内的被引和失效情况,现将论文分为三类:第一类为无生命论文;第二类为失效论文;第三类为未失效论文。第一类论文是在发表后T+De(判定信息失效的时间间隔T及首次被引时滞均值De,De是本研究数据集物理学各个科期刊论文首次被引用的时间与其见刊时间的时间差的算数平均数)时间间隔内均未被引,这类论文自发表后就直接失效,无生命长度;第二类论文是根据前面介绍的方法,判定在监测时间段内失效了的论文,生命长度为失效点时间减去发表点时间,属于完全数据;第三类论文是自发表后一直被引,监测时间结束生命仍在延续,规定这类论文的生存时间为监测时间终点减去发表点时间,属于右删失数据。在利用“双比例”失效法判定有效时间间隔T值前,需要首先预设双比例P1、P2阈值对的值。通常学者根据“二八法则”将双比例阈值定为80%。考虑物理领域的上述学科论文被引分布特点,再根据阈值对与T值之间的制约关系,经过多次实践调整最终将双比例阈值P1和P2均设定为71%。在此阈值对P1、P2下采用穷举法,对各个T值的有效性进行判定。如图1所示,在双比例阈值对71%—71%的条件下,随着横轴时间间隔T值从小到大变动,三类论文的数量也发生了明显的变动。在此过程中,无生命论文数量单调减少后变为0,失效论文量先上升后下降最后变为0,未失效论文量单调增加,最终所有样本论文都成为未失效论文。可以看出,物理学科作为基础学科,其论文右删失情况严重,这符合我们对物理学科发展及其老化速度相对迟缓的认知。表3列出了部分T值下论文类别分布及失效比例情况,其中“失效—P1数量”是指失效论文在有效生命长度内被引频次占观测时间内总被引频次的比例大于P1(71%)的论文数量;在考虑到物理学科论文右删失现象较为显著的情况下,将“失效—P2占比”定义为失效—P1论文数量和未失效论文数量占失效论文数量和未失效论文总量的比例。实质上,双比例阈值是不影响遍历T值时三类论文的变化规律的,而是用来确定“失效—P1数量”与“失效—P2占比”达到阈值所对应的T值。根据表3的统计数据,当T值取14时(字体已被加粗的行),被引频次大于P1的论文数量所占比例73.2%首次超过P2(71%)。并且,当T=14时,失效论文中满足P1条件的论文量(即失效—P1数量)达到最大,并在此后逐渐下降。由此可见,在双比例71%—71%的判定标准下,T取14满足判定条件,并且满足P1条件的论文量达到最大。因此,本研究判定实验样本论文失效的有效时间间隔的T值为14。

2.4样本数据集的生存函数曲线分析

在论文生命长度分布基础上,本研究依据论文生命表及生存时间函数,针对样本论文的生存情况进行进一步的分析。以5个月为单位区间跨度,将论文生命长度划分为19个时间段,利用生存曲线、概率密度曲线及风险曲线,对物理领域样本论文整体情况进行分析。

2.4.1累计生存曲线

在本研究中,物理学科样本论文集的累积生存曲线如图2所示,反映了对应时间仍处于存活状态的论文数量占总体样本数量的比例。由于研究领域的单一性,所以选取时间前后纵向对比分析,物理学科论文随着时间的增加,累计生存率整体呈现下降趋势,前11个时间区间下降显著,大约有80%的论文生命长度在11个时间区间内。突破11个时间区间存活下来的论文累计生存曲线变缓,失效速度减缓,生存时间较长。在检测时间为结束时,仍然有将近10%存活率,说明物理学科论文数据的右删失情况显著。

2.4.2概率密度曲线

样本论文集的概率密度曲线,如图3所示(经过平滑后的折线图),反映了样本论文在各个寿命区间的分布情况,即具有相同寿命的论文在总体中所占的比例。由图3可见,在前11个寿命区间的概率密度数值较大,随后曲线呈现下降趋于平稳的状态。此外,样本论文见刊后第7个时间区间出现了寿命分布最大值,说明论文见刊后第7个时间区间失效的概率相比于其他时间要高。见刊第11个时间区间后的论文生命长度分布较为分散。

2.4.3风险曲线

样本集的风险曲线如图4所示(经过平滑后的折线图),反映了每个寿命区间内未失效论文的失效概率,曲线出现多次升落现象,但从整体来看,在前10个时间区间内,论文在单位时间内的失效风险呈现逐渐增大的趋势;在第11个时间区间失效风险达到最大;随后迅速回落,逐渐趋于平缓。在风险迅速下降的过程中,在第13、15时间区间内再次迎来失效小高峰。度过失效高峰期的样本论文失效的概率不断变小,成为该领域内长寿论文。2.5样本期刊生存曲线对比分析在分析了数据集整体生存规律的基础上,将生存分析尝试性地应用在期刊间的对比上。在此选取《低温物理学报》《红外与毫米波学报》及《应用光学》3种期刊,对其生存函数曲线进行对比分析。笔者统计了这3种期刊的发文量及被引分布表中的记录数(表4),其中发文被引率是CSTPCD中收录的被引论文量占发文量的比值。从2016年版《中国科技期刊引证报告(核心板)》(自然科学卷)的2015年中国科技核心期刊综合评价总分排名表中,摘录出样本期刊的评价数据情况(表5),作为利用生存分析法对比3个样本期刊结果的评价标准。3个样本期刊的累计生存曲线对比图如图5所示。从总体来看,3种刊物的累计生存曲线下降趋势由陡到缓依次为:《低温物理学报》《应用光学》《红外与毫米波学报》。因此,整体上相对来说,在相同时刻,《红外与毫米波学报》生存率更高,《低温物理学报》的论文生存率最低。《低温物理学报》的论文生命长度集中在11个时间区间内,《应用光学》的最长生存时间能达到16个时间区间左右,《红外与毫米波学报》在监测的末期,还能有接近20%的存活率。3个样本期刊的概率密度曲线对比图如图6所示(经过平滑后的折线图)。从图6中可见,《红外与毫米波学报》的论文寿命分布相对分散,而《低温物理学报》分别在第6、9、11时间区间分别出现论文寿命分布高峰。从分析结果可以看出,在这3种期刊中,《低温物理学报》的论文失效率较高,生存时间比较集中且普遍较短。笔者认为这反映了该刊的论文质量要普遍低于另外2种期刊;《红外与毫米波学报》因其分散的生命分布、普遍偏低的失效风险及相对平稳降低的生存曲线成为3个样本期刊中质量最高的期刊;《应用光学》处于上述两种期刊之间。这个评价结果与2016年版的《中国科技期刊引证报告(核心板)》的2015年中国科技核心期刊综合评价排名表的结果相符合,在一定程度上说明将生存分析法应用到期刊论文数据上是有一定效用的。

3总结与讨论

(1)本研究将医学领域的生存分析法移用到学术期刊评价,在此过程中克服了遇到的障碍性问题,从而使得应用生存分析法评价期刊论文成为可能。首先,对论文失效进行了定义,并利用“双比例”失效法作出判定;其次,利用期刊的年发文频次与论文见刊的年卷期计算了见刊时间(精确到月),解决了原始论文被引频次的分布。(2)在选用CSTPCD收录的30种物理学科中文期刊中,对整体样本集进行分析后,选取3个样本期刊,经生命曲线对比分析表明,《应用光学》的论文质量相对更高些,其次依次为《应用光学》《低温物理学报》,与2016年版的《中国科技期刊引证报告(核心板)》的评价结果相符。(3)本研究仅实现了生存分析法在期刊评价上应用,并利用生存函数曲线对比分析了样本期刊间的差异,对计算结果进行了初步分析,但没有深入探究在期刊评价应用方向上的相关问题,例如指标构建及评价结果效用性等问题。(4)生存分析法用于期刊评价尚存在许多需要完善与优化的地方:在实证数据方面,应该延伸时间检测窗口,扩大样本数据范围,在更加宽泛的数据集上监测更长的时间;在理论方法方面,对于期刊评价上的探究过少,缺乏对评价指标及评价效用性的探究。(5)本文为文献老化视角下的期刊评价研究工作提供了新的思路与视角,丰富了文献信息老化的理论“基石”。通过在理论与实证两方面的研究,体现了生存分析法对被引时序数据具有普遍适用性。笔者认为,该方法可以在以论文为评价主体的期刊评价、学科信息老化速度评价、高校科研产出水平评价等方面进行推广与应用。