美章网 资料文库 房地产业税收流失研究范文

房地产业税收流失研究范文

本站小编为你精心准备了房地产业税收流失研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

房地产业税收流失研究

近年来,房地产业已经成为经济增长的重要推动力量和新的税源增长点。针对房地产行业的税收征管工作值得税务机关给予重视。本文的基本出发点,是以税务机关掌握的微观数据为基础,以税收流失测算为目标,探讨能和我国税收经济实际相结合的税收流失测算定量模型,以便为税务机关的税收征管决策提供更真实、可靠的科学依据。常见的税收流失测算方法包括现金比率法、CGE法、抽样调查、指标法、结构计量法等。本文考虑了房地产业开发周期长、财务核算复杂等涉税特点,经过多次试验比较,最终确定“机器学习法”作为税收流失测算的主体方法。和传统方法相比,机器学习法所表现出的优势有以下几方面:(1)采用的微观数据为大样本数据,有利于全面描述房地产企业的行为规律;(2)机器学习法构建的模型以数据为导向,能够自学习、自适应、自训练,更能适应经济周期不稳定、房地产税收环境复杂的特点;(3)机器学习法能够挖掘数据的相关性,适合涉税行为多样、财务核算复杂的房地产业。本文以A省房地产业税收数据为样本,运用机器学习法经过反复测试和修正,最终得到了较为可靠的税收流失测算结果。

一、数据来源与模型设定

(一)数据来源本文所取得数据来自A省税务机关的涉税数据,包括税务登记信息、申报征收信息、财务报表信息、税务稽查信息、发票管理信息、采集信息、代码维护信息7大类数据,共77张数据库表(105331599条记录)和655个Excel文件表(45236224字节数)的微观数据量。经过数据的清洗与整备,选出了A省2011年度1951户、2012年度1302户房地产业纳税人。

(二)模型原理本文测算微观税收流失的基本思路是运用机器学习法建立起纳税人生产经营状况(通过登记数据、申报数据、财务数据等描述)和应纳税额关系的税基模型,然后模拟出纳税人真实的生产经营状况及其应纳税额的关系,进而计算应纳税额,并在此基础上测试相应的税收流失额。本文对房地产业企业所得税和营业税应纳税额的测算建模基于以下假设:一是多数的纳税人经营行为具有一定的一致性,即相似经营条件(同地域、同行业、同规模、同投入)的企业,其经济行为如纳税规律应该相近。二是企业的财务报表数据是通过一定的准则对企业生产经营过程中资金过程进行会计核算的结果,能较为综合地反映企业的生产经营行为,数据可记载企业的行为。三是大量样本、大数据可以反映企业的行为规律,通过对数据的深度挖掘,能够达到预期目标。

(三)算法选择考虑到A省税收数据的情况,本文组合使用了Bagging、决策树两种算法,主要原因如下:(1)Bagging采用重复取样,每个个体分类器所采用的训练样本都是从训练集中按等概率抽取的,因此Bagging的各子网能够很好的覆盖训练样本空间,从而有着良好的稳定性。同时,Bagging对数据的抗干扰能力较强,适合公司规模大小有差异、注册登记类型不同的房地产业,避免因为业务发生的偶然性而失去观测值的“独立同分布”。(2)决策树法是数据挖掘分类算法的一个重要方法,由于A省数据来源多、覆盖面广,对于决策树数据的准备要求较低,而且能够同时处理数据型和常规型属性,特别是能对分布失衡的分类变量自助划分,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

(四)变量选择有监督的机器学习问题可以形式化地表示为已知目标变量y与输入x之间存在一定的未知依赖关系,即存在一个未知的映射F(x,y),通过逼近函数反复地训练调整,使预测的期望风险降到最小,以找到最佳的F(x,y)近似目标函数。根据研究目的,本文选择的目标变量为企业所得税、营业税这两个税种的应纳税额。而对于参与变量,原始数据中可供选择的指标很多,但这些指标并非全部有助于税收流失测算,反而可能因为变量之间的相关性、噪声变量等降低模型的有效性。运用传统的聚类方法、因子分析、逐步回归等进行自变量选择是比较繁琐、艰难的工作,机器学习支持全样本、全变量参与,符合大数据分析的需求。所以,本文运用了机器学习法中的噪声稳健性算法(具体算法不再赘述)计算各变量的重要性排序,并以此确定营业收入、利润总额、营业利润、财务费用、管理费用、应纳所得税额等为参与变量。

(五)模型评估本文总结出模型的有效性包括理论模型有效性确认、数据有效性确认和运行有效性确认等三部分。以下将通过模型输出对上述三方面进行评估:1.理论有效性确认。本文运用交叉验证(Crossvalidation)法进行判断。其基本原理为:先以一个子集做分析,而其它子集则用来做后续对此分析的确认及验证。初始子集被称为训练集,而其它子集则被称为验证集或测试集。交叉验证一般需满足:(1)训练集的比例要足够多,一般大于50%;(2)训练集和测试集要均匀抽样。本文的交叉验证结果表明训练集误差率很小,说明机器学习法逼近数据相关性的能力很强。外推性方面,测试集的误差率明显小于1,说明该模型可靠性很高。预测集部分,可以反映出纳税遵从样本的选取比例,不再赘述。2.数据有效性确认。本文采用拟合度检验比较理论结果与实际情况的吻合程度。常用方法包括剩余平方和检验、卡方(c2)检验和线性回归检验等。本文所用方法是对实验中每个目标变量的500个模型同时进行检验,以判断模型对实际情况的“吻合程度”。检验结果显示拟合度平均值大于80%,表明数据拟合效果较好。3.运行有效性确认。本文通过分析模型在构建中的误差走势和残差分布来确定运行有效性。计算结果见图1(以2012年度、营业税为例),其中左、中、右分别为误差走势图、残差分布核密度图、残差分布Q图。误差走势图显示数据误差在最后环节基本趋于稳定且逼近最小值,残差分布核密度图和残差分布Q图则显示残差分布属于正态分布,这说明数据结果在统计上是可靠的。

二、测算结果

(一)企业所得税税收流失测算的总体结果2011年度主要测算结果为:企业所得税总流失金额189720235.7元、总流失率44.99%,存在低申报缴纳税款的户数在为995户,总流失户比76.42%;2012年度主要测算结果为:企业所得税总流失金额311769655.50元、总流失率51.47%,存在低申报缴纳税款的户数在为1059户,总流失户比54.28%。数据反映,2011-2012年度企业所得税的税收流失现象较为严重,且有恶化趋势。从税收流失的区间分布看,企业所得税流失主要集中在少数纳税人身上,税收流失集中性非常明显。据统计,其中,2012年度流失金额在100万以上的仅为42户、占总流失户数的2.15%,流失金额为244580407.5元、占总流失金额的78.45%。这一结果表明,税务机关在实际工作中应重点关注税收流失严重的企业,从源头上防止税源流失。

(二)营业税税收流失测算的总体结果2011年度主要测算结果为:营业税总流失金额64059647.53元、总流失率21.64%,存在低申报缴纳税款的户数在为1232户,总流失户比94.62%。2012年度主要测算结果为:营业税总流失金额53222753.25元、总流失率3.63%,存在低申报缴纳税款的户数在为1786户,总流失户比91.54%。与企业所得税相比,房地产业营业税的税收流失率较低,这可能与营业税的征收方式单一,并采用以票控税的征管方式有关。

(三)按经济性质划分的税收流失情况本文按照纳税人的经济性质分别测算了各类企业的税收流失情况,计算结果见表1(以2012年度企业所得税为例)。数据显示,不同经济性质的纳税人流失情况还是有很大的不同。从“流失金额>100万的纳税人户数占总户数的比”看,应重点关注的是国有企业;从“流失金额>100万的流失金额占总金额的比”看,应重点关注的是国有企业、私有有限责任公司、有限责任公司、其他有限责任公司。

(四)按主管税务机关划分的税收流失情况本文按照纳税人所属主管税务机关分别测算了各税务主管机关的税收流失情况,计算结果见表2(以2012年度企业所得税为例)。由于各管辖范围内的房地产发展情况、征管质量和纳税人结构等的不同,各市纳税人的税收流失金额、流失户数比例等存在着不少的差异。从税源专业化角度上来讲,上级税务机关应综合考虑税源数量、税源结构、税源地域分布、基层人员数量和素质等因素,对征收管理和绩效考核进行全盘考虑。

三、结论

房地产行业存在税收流失是客观存在的事实,但如何进行准确识别在以往诸多的实证分析中并不多见。本文利用数据挖掘的方法在上述方面进行了尝试性研究,主要成果表现在:建立了一个比较系统、完整、可操作的房地产税收流失测算模型,以机器学习自适应地区、行业等功能,识别了房地产业纳税人的纳税遵从风险,为加强税源监控、风险管控、保障税收收入平稳增长创造了良好的条件,为案头审核、实地验证提供智能决策化服务奠定了基础。

作者:赵瑜 孙存一 王坤 单位:中国人民大学财政金融学院