本站小编为你精心准备了套索方法在期刊评价指标选择的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1套索模型
Lasso方法是Tibshirani建立在Breiman[10]于1995年提出的非负绞除法(NNG)的基础上,对NNG不足之处做了改进。非负绞除法的预测误差相对较小并且由于非负绞除法去除了模型中很多接近0但非0的特征,从而增强了模型的解释性。在高维数据分析中,非负绞除法由于对高维特征进行了压缩,模型简化了计算过程并且增强了重要特征的解释性。但是非负绞除法的缺点是其运算结果要依赖于最小二乘估计的符号和数值大小。并且存在过拟合和多重共线性情况时,由于最小二乘估计效果不好而会影响预测准确性。
2实证研究
2.1实验指标选择与研究对象
本次实验平台为R-3.2.4,R语言是一种免费的开源语言,并提供了大量可以调用的接口函数,对于一般的统计实验均可用R实现。同时,为了确保实验结果的可靠性,将利用同样的数据信息通过Python环境进行了一次实验。Python语言同样拥有非常丰富的数据分析、处理的工具,可以轻松完成本文提到方法的实现。实验数据来源于中国知网CNKI2015年的年度统计报告。
对于Lasso方法中的调和参数λ的确定是非常重要的,一般采用交叉验证的的办法求得λ的最优值,即当交叉验证取最小值时λ为最优值λmin。为了取得模型的最优精度,需要选择合适的λ,使得模型的预测误差降低到最小值。本文使用AIC/BIC准则确定模型大小,一般当AIC/BIC越小时表示该模型越精确。AIC准则其实是BIC准则的一个特殊形式,具体解释见文献[12]。实验采用5折交叉验证[13]的方法,即首先将数据随机分为5份,然后依次将其中一份用于计算误差,剩余4份用于拟合模型,这样可以得到5个预测误差,最后取这5个误差的平均值。为AIC/BIC信息准则用于模型选择的变化图,为Lasso的系数解路径,可以看出当约束λ最大时所有特征被选入模型,随着约束的减少,特征逐渐减少。本文利用AIC准则确定模型最优解,根据Lasso回归参数估计结果,发现在第9步时,AIC达到最小值并最终选择了12个特征,可以看出指标x2,x4,x5,x6,x8,x12,x17,x19,x21,x22,x23,x24的系数为0,其他均不为0。因此,选取了可被引文文献量、基金论文比、引用期刊数、他引总引比、互引指数、web即年下载率、量效指数、影响力指数CI值、复合总被引、复合影响因子、复合5年影响因子、综合总被引共计12个指标作为最终的评价指标体系。对系数表进一步观察可以看出,对前三位重要指标排序依次是复合5年影响因子、复合总被引、量效指数。这与实际联系是一致的,比如在研究人员论文投稿时一般会关注其5年影响因子,如果比较高可以认为是比较优秀的期刊。通过对原始数据的5年影响因子倒序排序得到了在41种图书情报领域中有较大影响力的三大比较优秀的期刊,他们分别是:《大学图书馆学报》、《中国图书馆学报》、《情报学报》。这进一步应证了本文应用方法的合理性。
3结论与讨论
针对指标数量增多所带来的诸多问题,本文从在以往期刊评价方法研究的不足出发,利用套索方法减少期刊评价因子,提取关键指标,通过科学的计算过程避免了专家打分的个人主观性,另一方面套索方法可以降低期刊评价中的多重共线问题,以提高期刊的评价效率。套索方法在期刊评价中指标因子选择方面具降低多重共线性等优点,利用套索方法的连续性和稳定性,使对不重要的指标惩罚更加合理。通过研究,套索方法可以达到指标选择的作用,为有关人员提供另一种参考标准。比如本文使用的24个指标中筛选了12个指标,这样读者和研究人员可以仅根据可被引文文献量、基金论文比、引用期刊数、他引总引比、互引指数、web即年下载率、量效指数、影响力指数CI值、复合总被引、复合影响因子、复合5年影响因子、综合总被引这12个指标来选择合适的期刊阅读、发表、购买等。对于跨学科研究来说,应该对多学科期刊进行综合考量。针对后续的研究,同样可以利用本文的方法,一方面可以检验新的指标因子的合理性,另一方面为构建新的指标提供理论依据。
作者:江永众a;陶虹琳a;杜彦璞a,b 单位:成都理工大学a.管理科学学院;b.四川省数学地质重点实验室