美章网 资料文库 GA-RS-LR算法下公司财务与个股投资研究范文

GA-RS-LR算法下公司财务与个股投资研究范文

本站小编为你精心准备了GA-RS-LR算法下公司财务与个股投资研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

GA-RS-LR算法下公司财务与个股投资研究

摘要

运用遗传算法-粗糙集-逻辑回归方法(GA-RS-LR)探讨我国A股上市公司财务与股票收益的关系.运用GA-RS方法获得财务指标最优约简;运用LR模型探求两者关系.最终,经GA-RS约简,60个财务指标中有17个对股票投资有重要影响;通过LR模型,4个指标具有显著效应;其中,负债与权益市价比为5.82%负效应,其余为正效应.对2015年股票相对波动进行预测得到70%的准确率,验证了GA-RS-LR模型对中长期投资的有效性.

关键词

遗传算法-粗糙集;逻辑回归;股票收益;公司财务

1引言

股票市场对一个国家和地区的经济发展动向有前导作用.股票收益受到宏观经济现状、政策、公司财务、投资者情绪等因素影响.研究股票收益问题一直是学术界的研究热点.目前,学术界对股价与上市公司财务之间关系的探讨主要从两方面入手.一是通过建立计量模型来探求股票与其影响因素的关系,进而对股价进行分析与预测[1,2].然而计量模型对数据平稳性、正态性等有严格限定,直接利用很难达到预期结果.股票市场数据体量巨大、类型繁多,故很多学者转而选用数据挖掘方法来探究其关系.如有不少学者就运用遗传算法[3]、BP神经网络[4]等得到了较为理想的结果.粗糙集(RoughSets)理论[5,6]由波兰数学家PawlakZ于1982年所提出.这是一种用于处理含糊和不确定信息的新型数学工具,具有优越的知识简化能力.粗糙集理论利用现有知识库对不精确的知识进行近似描述[7].RS方法不需预先假定概率分布,也不需像模糊集理论一样假设模糊隶属函数的结构,而是仅仅利用数据本身提供的信息.目前对粗糙集的研究主要集中于其数学性质,理论的扩展以及与其他智能方法的融合与有效算法等[8].杜婷(2012)将粗糙集运用到了个人信用评估模型之中,并取得了良好的约简结果[9].王刚、杨善林将粗糙集与支持向量机相结合,以分析网络商品评论中的情感进行分析,实证表明,RS-SVM方法可以提高网络用户情感分析的准确程度[10].逻辑回归方法由vethulst首次提出.1980年,Ohlson率先将逻辑回归模型用于财务危机预警,分析样本公司在破产概率区间上的分布以及两类错误和分割点之间的关系,并得到高预测准确率[11].刘遵雄、黄志强等(2012)在逻辑回归的基础上进行完善,提出了基于平滑小编绝对偏离(SCAD)惩罚逻辑回归模型,运用到财务预警,实验结果表明SCAD惩罚逻辑回归模型的分类效果更好[12].因此Logistic回归法在经济领域的研究受到了极大关注.基于此,本文提出了遗传算法-粗糙集-逻辑回归(GA-RS-LR)数据挖掘技术,用于探究股票投资与上市公司财务指标体系的内在联系.运用GA-RS模型得到最优财务约简指标.并在此之上利用逐步回归法与Logistic回归模型以探究公司财务与股票收益的确切关系.最终得到上市公司财务指标不同大类之间与个股投资概率之间的正负效应关系及其影响大小.

2GA-RS-LR模型构建

2.1GA-RS约简模型

粗糙集理论的属性约简算法可分为是盲目删除属性约简算法与启发式算法.遗传算法作为启发式算法中的一种,具有全局优化和隐含并行的特点,在解决复杂问题中具有明显优势.遗传算法在属性约简问题中需要具体考虑的因素如下:染色体编码:设条件属性集合为C={c1,c2,…,cn},则条件属性空间ΩC可映射为遗传算法的染色体.每个染色体用n维的{0,1}二进制位串表示,每一位对应一个条件属性.若染色体上某一位取值为1则表示选择该条件属性;若某位取值为0,则表示剔除该条件属性.由此染色体个体与属性子集就建立了一一对应关系.适应值函数构造:适应值函数作为评估染色体的优劣指标,其形式直接决定了种群的进化行为[13].在属性约简问题中,可将适应值函数定义如式(1).式中,card(x)表示染色体中1的个数.γC(D)(x)表示条件属性集C的相对依赖度.POSCx(D)表示条件属性集合Cx的相对正域.f(x)的目标是使x中值为1的个数最少,使属性集尽可能的约简.γC(D)(x)的目标是使x的相对依赖度最大.两者结合正好满足属性约简的原理。选择概率:选择指从当前种群中选择适应值高的优良个体以生成交配池.设种群为G={x1,x2,…,xM},对xi∈G,其被选择的概率设定为式(2).式中,F(xi)表示xi的适应值.其值越高,被选择的概率也越大,从而该染色体的优良特性被保留下来的概率也就越大.交叉与变异:交叉运算是指从交配池中随机选取两个体进行位串,从而得到新一代基因个体的过程.由于核所包含的属性必须存在于每一个个体中,因此采用一致交叉运算以保证核所对应基因位的取值为1.变异运算指按照变异概率pm对调某位基因的二进制字符数值的过程.变异可确保种群多样性,避免陷入局部最优的困境,但变异太频繁,反而使得种群不稳定.为维持种群稳定性,pm一般设置在0.01~0.2之间.算法终止条件:连续t次迭代之后,若最优个体适应值不再提高,则认为已经近似找到最优染色体,计算终止.GA-RS约简的具体流程见图1.

2.2LogitRegression模型

通过GA-RS约简,条件属性集与决策属性集之间的确定关系并没凸显出来.因此,在GA-RS约简后,引入LR模型以探究两者之间的可度量关系.假设某事件Y满足:Y=1,事件发生;Y=0,事件不发生;且发生概率为p.若存在k个相互独立的变量X′=(x1,x2,…,xk)与事件Y相关,且X与事件Y发生概率之间满足关系式(3),事件Y的发生概率与未发生概率之比取对数便可得到Logistic函数(4):LR模型的理论约束相对宽松,无须对变量进行分布类型、协方差阵等的假定,但LR模型对变量之间的共线性干扰却相对敏感.而GA-RS约简只保证属性集合的重要性,而没有考虑独立性.若直接采用LR模型进行拟合,由于个指标之间的共线性影响,模型的拟合效果将受到干扰,甚至出现错误的模型.故本文选择逐步回归法,通过变量筛选来处理多重共线性问题,最终得到最优LR模型.

3GA-RS-LR模型实证

3.1数据选取与处理

以我国上海交所与深交所上市的A股上市公司为依据,选取2014年下半年内数据完整、具有不同行业分类的非ST、非*ST的上市公司作为样本.提取公司财务季度指标60个,个股开盘价、收盘价,上证综合开盘指数、收盘指数等指标,最终得到样本913个.其中财务指标体系的分布见表1不同指标之间量纲不同,同一指标不同个体之间的差别各异,直接利用原始数据进行分析,不仅会增大模型的复杂度,还会造成结果的不理想.故运用K-均值聚类对各项指标进行逐一聚类,并最终将公司就不同指标分别分为3类.由于公司财务报表的公布具有时滞性,股票数据选取也将延后一个季度.同时,考虑到投资者投资其他领域而非股票所造成的机会成本,本文用上证综指收益率作为基准收益率:当大盘指数上升时,若个股上升幅度更大,则认为该个股为强势股,值得投资;反之,投资该个股并非明智之举.同理,当大盘指数下降时,若个股下降幅度更小,则该个股是抗压股;反之.基于此将股票分为2类.“好”为具有投资价值的强势股或者抗压股;“差”为不值得投资的股票.

3.2GA-RS属性约简

在对离散化数据进行GA-RS属性约简之前,需要设定遗传算法的参数.约简后,影响股价相对收益率的财务指标从60个变量缩减为17个.约简集合相对决策属性的依赖度都达到了100%,这表明该约简结果对决策属性的解释度100%.约简后的指标分布见表3可知,发展能力指标数目最多,共6个指标;其次是偿债能力.考虑到时滞性,该17个约简指标应是股票价格波动的领先指标,对下期的股价相对波动有着显著的影响.投资者在决策时应重点关注.

3.3Logistic回归与逐步回归

通过GA-RS约简后,财务指标得到了极大的简化,但是GA-RS属性约简只能保证上市公司财务指标属性集对个股相对波动率的相对重要性,而没有给出两者之间更为确切的关系.因而引入LR模型对约简的财务指标与股票波动的相互关系做更为细致准确的刻画.同时,对财务指标体系而言,计算过程中所运用的基础数据有交叉,故指标之间存在很强的相关性.这一缺陷会导致财务指标之间存在比较严重的共线性,如果直接使用LR模型将极大减弱模型的拟合效果.因此,在LR模型中使用逐步回归法进行变量筛选,消除变量之间的共线性,从而精简模型.通过计算17个约简指标的VIF值可知,固定资产增长率、销售费用本增长率的VIF都超过5,说明变量之间存在共线性.利用逐步回归法得到的LR模型中变量的VIF值见表4.可以发现,此时各变量之间已不存在共线性问题.设样本中个股为强势股或者抗压股的概率为p,则该个股值得投资的概率也就等于p,进而个股投资概率比p/(1-p)与4个财务指标之间的回归方程为:括号里为相应参数估计的z值,通过z值可知模型已通过检验.根据式(5)得到个股为抗压股的概率p与财务指标之间的关系,即Logistic模型为:可知,负债与权益市价比率对股票投资概率的影响最大.x1每变动1单位,股票为抗压股的投资概率之比则相应变化-5.819%.由于负债与权益市价比率指标属于偿债能力的指标大类,该指标主要用来衡量负债与权益资金的相对比重.其值愈大,公司自有资金愈少,对债权人的保障愈少.因而,对股价的波动将产生负效应.相比之下,固定资产增长率、存货周转率、普通股获利率对个股投资概率比则为正效应.它们分别反应了公司发展状况与预期,经营管理能力,以及每股股息的实得利率.其对股票投资价值的影响分别为0.824%、0.12%、1.009%.此外,除了这4个上市公司财务指标之外的其他影响因素对个股投资概率比的综合影响也表现为负效应,大约为4.056个百分点.为验证模型有效性,以2014年第4季度财务指标为自变量,2015年第1季度股票投资比为应变量进行模型预测检验,得到900个样本的预测准确度为70%.这表明大约有630个上市公司的个股波动可以通过上一期的GA-RS-LR模型得到准确预测.这对价值型的中长期投资者具有一定的参考意义.

4结论

本文提出了遗传算法-粗糙集-逻辑回归方法(GA-RS-LR)探究股价相对收益率与财务指标的关系.利用K-均值聚类进行离散化处理,既解决了数据量纲不一致的问题,又使同一类别相似个体之间的差异被忽略,而不同类别之间的差异被放大.通过选用GA-RS方法以约简众多的财务指标.最终得到由17个指标所组成的约简体系,且RS约简的相对依赖度为100%.基于约简指标数据,利用逐步回归法对LR模型进行变量筛选,解决共线性问题.最终得到上市公司财务指标不同大类之间与个股投资概率比之间的正负效应关系及其影响大小,并得到70%的预测准确度,验证了GA-RS-LR模型对中长期投资所具有的优势.

参考文献

[1]陈玉山,席斌.独立成分分析方法在股票分析中的应用[J].计算机工程与设计,2007,28(6):1473-1476.

[2]吴荣盛.全流通条件下的股票价格与财务信息的相关性研究-来自我国沪深300指数的实证研究[D].成都:西南财经大学经济学院,2014.

[3]胡冰,潘福铮,胡清锋.遗传算法在股票短期投资决策中的运用[J].系统工程与实践,2003,23(2):7-13.、

[4]王莎.BP神经网络在股票预测中的应用研究[D].长沙:中南大学商学院,2008.

[7]董威.粗糙集理论及其数据挖掘应用[M].沈阳:东北大学出版社,2009.

[8]王国胤.Rough集理论在不完备信息系统下的扩充[J].计算机研究与发展,2002,39(10):1238-1243.

[9]杜婷.基于粗糙集支持向量机的个人信用评估模型[J].统计与决策,2012,1(13):94-96.

[10]王刚,杨善林.基于RS-SVM的网络商品评论情感分析研究[J].计算机科学,2013,40(11):274-277.

[12]刘遵雄,黄志强,孙清,张恒.SCAD惩罚逻辑回归的财务预警模型[J].统计与信息论坛,2012,27(12):21-26.

作者:瞿尚薇 王斌会 单位:暨南大学