本站小编为你精心准备了随机森林算法的养老保险支付风险预警参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘 要:基于神经网络思想,探索建立随机森林算法预测模型,提高基本养老保险支付风险预警精度,有助于基本养老保险更加科学、有效地管理。首先,识别基本养老保险支付的风险因素,构建随机森林算法预测模型,识别风险因素。其次,结合浙江省基本养老保险数据,开展实证研究。最后,基于理论与实证研究,加强养老保险基金风险管理,保障基本养老保险支付健康运行与发展。
关键词:随机森林算法;基本养老保险;风险预警
一、引言
我国从2001年进入老龄化社会以来,老龄化程度不断加深,2019年我国65岁以上人口已达17603万人,占总人口比重为18.1%,养老负担日益加重。基本养老保险是社会养老保障体系的重要组成部分,在保障老年人老有所养,享受幸福美好生活中发挥着不可替代的作用,而当前基本养老保险统筹层次低,各省份基本养老保险收支赤字风险不均,部分省份基本养老保险入不敷出,基本养老保险可持续发展面临着严峻的考验。浙江省经济较为发达,人口流入量速度减缓,老龄化加速。2019年末浙江65岁以上人口占常住人口的14.2%,超过国际深度老龄化的通行标准线14%,迈入深度老龄化社会。从人口出生率来看,浙江逐步开放生育政策,从“单独二孩”到“全面二孩”政策,人口出生率逐步提高,但未能完全扭转出生人口数量下降的趋势。而在生育高峰出生的人口将要步入老年期,老龄化人数比例不断扩大,老龄化速度不断加快,导致养老保险支出规模不断扩大。因此,科学、有效地对浙江基本养老保险支付风险进行预测具有紧迫的现实意义。一方面,有助于识别基本养老保险支付风险因素,提高养老金支付的风险意识。另一方面,有利于提高浙江基本养老保险风险预测精度,为基本养老保险政策的调整提供参考,促进基本养老保险健康发展。
二、研究现状
基本养老保险风险因素研究,从城镇职工基本养老保险基金支付能力差异性角度分析,郑秉文、孙永勇(2012)认为各个省份之间不同的历史债务、制度赡养率、经济发展水平、劳动力流动空间分布是影响中国城镇职工基本养老保险财务状况的主要因素[1]。熊俊顺(2001)通过外生变量如参保职工人数、职工平均工资、实际缴费工资水平等指标对养老保险基金支付能力进行预测[2]。从基本养老保险基金制度设计与运行的角度分析,常丽娟、陈玲英(2011),叶茂春、李红艳、任慧霞(2018)构建了预警指标体系,将赡养率、个人缴费率、GDP增长率等指标作为预测的重要因素[3-4]。邓大松、仙蜜花(2015)重点分析了基本养老保险的制度内影响因素,如统筹层次、保障水平、激励机制等因素[5]。从基本养老保险基金保值增值的视角分析,王增(2018)、文杨晶(2018)认为促进基本养老保险基金的可持续积累,不仅涉及人口老龄化、养老金政策和体制限制、通货膨胀等因素,同时也涉及养老保险基金投资策略、运营风险以及监管机制等因素[6-7]。基本养老保险支付风险评估与预警方法研究,基于传统数据分析方法,陈曦(2017)通过定量分析,研究养老保险缴费率、缴费年限对基金收支缺口的影响[8]。熊俊顺(2001)通过建立时间序列模型,对职工人数、平均工资进行分析和比较,预测基本养老基金支付能力[9]。吕志勇、王霞、张良(2009)建立了养老保险收支平衡精算模型,选取了就业年龄、隐形债务、收缴年限、养老金替代率等主要影响因素[10]。吕伟、钟健(2005)从政府担保的角度,结合期权定价理论建立收益率担保和最低养老金担保的价值评估模型,探讨了养老金政府担保的政策目标、价值评估和风险管理等问题[11]。基于神经网络数据分析方法,杨学理、朱衡、杨一帆(2016)基于神经网络思想,探索构建非线性网状养老保险基金风险预警指标体系,厘清风险因素的内在关系[12]。常丽娟、陈玲英(2011),叶茂春、李红艳、任慧霞(2018)基于BP神经网络较强的非线性映射能力构建了预警模型[3-4]。孙瑞奇(2015)认为相对于BP神经网络,RNN神经网络能更有效地利用历史数据,预测结果更为合理、准确[13]。相关研究主要集中于基本养老金支付风险因素的提取,缺乏对不同风险因素的综合分析与优化,且运用传统的数据预测方法或建立单一的神经网络模型来预测养老金支付风险水平,基本养老保险支付风险预测的准确率有待进一步提高。
三、风险预测模型的构建与实证分析
基本养老保险支付风险预测体系包含多层次、多维度的风险指标,本文将从基本养老保险的收支风险、环境风险、制度风险三个维度来选取风险指标(见表1)本文采用随机森林算法建立基本养老保险支付风险预测模型(见图1)。随机森林算法在预测模型的特征值选取上发挥了重要的作用[14]。实际风险评估模型的建立往往包含过多的特征变量,而部分特征变量对结果具有较小的影响。采用随机森林算法,赋予特征值相应的权重系数,对特征因素进行筛选与改进,不仅降低了特征值的维数,而且提高了模型预测的精度[15]。本文选取收支风险、环境风险、制度风险三个维度的风险预测指标构建基本养老保险支付风险预测体系,随机森林算法通过对原始数据训练,在众多风险因素中,选取对预测结果影响较大的风险指标,并赋予风险指标相应的权重系数。同时,相关的原始数据从不同的维度来反映基本养老保险支付风险,不同维度的数据具有不同单位、数量级别,通过对原始数据归一化进行标准化处理,使得数据映射在0至1之间,提高整体拟合效率。近几年,浙江省养老保险基金结余下降趋势明显,养老保险基金累计结余可支付月份数整体降低,养老保险支付风险提高,浙江省养老保险支付具有较强的代表性。本文选择浙江省养老保险基金作为研究对象,构建基本养老保险风险体系与随机森林预测模型。本文基本养老保险支付风险的原始数据主要来自《中国统计年鉴》《浙江统计年鉴》《浙江统计公报》。通过随机森林算法,在收支风险、环境风险、制度风险三个维度的风险指标中,筛选出基金净收入(基金收入-基金支出)、居民消费价格指数(CPI)、GDP增长率、死亡率、城镇居民人均可支配收入、职工人数六项风险指标,并赋予相关指标相应权重。可支付月数是衡量基本养老保险风险的重要指标,可支付月数为上一年基金结余除以基金支出,反映了基本养老保险支付的可持续性,可支付月数越高,基本养老保险支付的风险越小,相反,基本养老保险支付的风险越大。基于以上数据筛选处理,本文将浙江省基本养老保险2002年至2018年的相关数据(见表2)分为随机森林基本养老保险风险预警模型的训练集和测试集,2002年至2013年数据作为随机森林算法预测模型的训练集,2014年至2018年数据作为预测模型的测试集。通过随机森林预警模型的训练和测试,获得基本养老保险支付风险的影响权重(见表3),筛选模型的风险指标并优化学习算法的参数,预测结果如图2所示。在本文随机森林预测模型中,通过原始数据训练与验证,RMSE(均方差)是预测估计值与真实值之差平方的期望值,反映了随机森林预测模型的平均误差,随机森林算法预测的精确性,均方差的值越小,随机森林预测模型的平均误差越小,精确度也越高。在风险指标筛选前,用原始所有风险指标进行训练后,测试结果的RMSE=5.992;在进行了模型优化,剔除了对结果影响较小或产生噪声的风险指标,用优化的训练集进行训练后,测试结果的RMSE=4.142。通过风险指标的筛选,均方差数值的降低,随机森林预测模型的精度提高,随机森林预测模型的有效性也随之提高。
四、总结与展望
近些年,浙江省的可支付月份有所下降,基本养老保险支付风险有所提高,为确保养老保险基金的按期足额发放,养老保险风险预测模型有助于掌握养老保险运行情况,及时采取有针对性的应对措施。加强养老保险基金风险管理,对各地区基本养老金的收支情况及时进行风险预警,利用信息化技术,提高基本养老金风险管控能力。及时对各地区基本养老金的收支情况做实时的了解,分析收支不平衡的风险因素以及因素间的关联性,采取有针对性的措施。本文采用随机森林算法,在预测模型中,通过优化基本养老保险支付风险指标,在一定程度上提高了预测模型的有效性。但本文基本养老保险统计相关原始数据按时间序列展开,原始数据的组数整体偏少,随机森林预测模型训练效率有待进一步提高。针对原始数据不足等情况,基于现有数据通过改进算法提高基本养老保险预测精度是后续研究的重要方向之一。
作者:章安然