本站小编为你精心准备了机器学习下医学检验智能审核模型研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:针对临床医学检验科信息系统(LIS)只能对检验结果进行异常提醒,无法综合个性化信息进行审核决策的局限性,构建了医学检验智能审核模型(LISIV)。LISIV采用历史检验记录和病人个性化信息融合起来的样本特征集,并构建由随机森林,XGBoost和GBDT+LR等多分类器组合的模型。以血常规检验为研究对象,实验结果表明,LISIV的准确率为99%,召回率为98%,F1分数为99%。
传统的报告审核程序需要经验丰富的技术人员对检验结果及样本相关信息进行综合分析,才能发出检验报告。随着检验样本量的日益增加,临床对缩短样本周转时间提出了更高要求。如何高效处理海量检测数据,自动签发检验报告,成为了检验科急需解决的问题[1]。由此,医学检验系统应运而生[2]。由于人体各项检验指标并非完全独立,具有一定关联性,如果仅仅对各项检验指标进行独立的规则制定,不能够满足大规模、多样化的数据审核,而机器学习能够在数据集中寻求隐藏和有益关系,从而更精确地实现目标预测。因此,希望基于机器学习建立一个医学检验智能审核模型(LISbasedIntelligentVerification,LISIV),降低检验人员工作量,缩短TAT(TURN-AROUNDTIME),提升检验科工作效率。
1资料与方法
1.1资料来源
实验数据来源于厦门市某三甲医院检验科,约18万条血常规原始检验数据。清洗无效数据后,剩11万条数据。每条数据具有35个有效字段(比如检验值、性别、年龄、历史检验值、诊断信息等,以及人工审核决策结果)。
1.2分析方法
1.2.1数据预处理对有效字段进行特征提取,将每条数据划分为样本特征集和样本标签。经过特征选择,确定29维特征,其中包含了28个检验数值以及1个患者信息(年龄),如表1所示;样本标签为2类,如表2所示。对29维特征进行归一化处理,维数值型的检验值进行[0,1]归一化,而年龄特征则进行分箱离散化,其离散化准则是医学年龄的差异性。由于该训练集中正负类样本数量比值约为99:1,存在严重的类不平衡分布,因此对训练集进行了SMOTE过采样。通过增加负类样本量来达到数据平衡,有助于机器学习的样本训练,提高分类器的泛化能力。
1.2.2模型选择LISIV采用了多分类器组合,由随机森林,XGBoost和GBDT+LR这3种分类器组合而成,以应对具有混合类型特征且类分布不平衡的医学检验训练数据学习问题。随机森林作为Bagging方法[3]中较为经典的算法,是以决策树作为基本分类器的一个集成学习模型。不仅克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题也具有良好的可扩展性和并行性。XGBoost与传统机器学习算法相比,具有速度快、准确率高等优势,是当前比较流行的集成学习算法。它主要利用Boosting方法将弱分类器转化为强分类器,从而达到精确的分类效果[4]。GBDT与LR的融合指的是对将GBDT产生的决策树的路径作为LR的输入特征使用。GBDT与LR融合后直接通过黑盒子(Tree模型GBDT)进行特征、特征组合的自动发现,省去了人工寻找特征和特征组合的步骤。将随机森林、XGBoost、GBDT+LR三个分类器进行融合。使用组合决策的方式输出最终的审核结果,并把输出为“审核通过”标记为“0”,输出为“审核不通过”标记为“1”。以上技术流程如图1所示。
1.2.3组合决策LISIV对3个分类器模型的识别结果进行组合决策[5],从而获得最终预测结果。只有当3个分类器结果同时为正类(自动签发决策)时,输出预测为自动签发决策,即“审核通过”。否则输出预测为负类(禁止签发决策),即“审核不通过”,并进一步提交给检验科的专业人士审核。组合决策的核心决策思想是保证所有输出的正类决策分类错误率趋近0,分类精度趋近100%。
2结果
2.1训练集与测试集
经数据清洗,有效样本共108977条。每个样本具有29项特征与1项样本标签值。将现有样本集随机分割为两部分:训练集70%和测试集30%。
2.2模型训练
对3个分类器进行网格搜索从而寻找最优参数,评分指标为mean与std。其中mean表示基于某参数值的K折交叉验证下(取K=10)。模型预测的评分,参数的mean值越大,分类器性能越好。std表示标准差(standarddeviation),为一组数据平均值分散程度的度量。参数的标准差越小,分类器性能越好。三个分类器的相关参数寻优如表3所示。随机森林分类器最终确定:单个决策树使用所有特征,1000棵决策树和最小叶子大小为1时是最优参数。XGBoost分类器最终确定:学习率为0.4,分类器数为500,树的深度为9,最小子树权重为1,Gamma系数为0.2时模型性能最优。对于LR分类器则首先利用GBDT算法进行特征组合,同时对特征进行one-hot编码化,将编码后的数据作为LR的输入特征,然后对LR采用L1正则化并分类器中各类型权重设置为balanced时获得最优模型。单分类器决策与LISIV组合决策审核对训练集的结果对比如图2所示。随机森林、XGBoost和GBDT+LR三个分类器的禁止通过样本数分别为1662、9587和13721个,当采用了组合决策的方法后,LISIV禁止通过样本数上升至19428个。虽然使用组合决策后,通过率变低了,但是LISIV的可靠性却变高了。由于医学检验属于高风险领域,对预测结果精度要求较高,所以使用组合决策,既可以拦截可疑数据,又使极大部分检验样本能获得准确的审核决策结果。优化后的3个分类器作为最终模型,用于后续的测试和决策应用。
2.3模型测试结果
以精确率(Precision)、召回率(Recall)[6]和F1分数(F1-Score)[7]对LISIV模型进行评估。将3个分类器预测标签组合成预测序列,例如[1,0,1],当预测序列内值均为0时,即3个分类器对模型的预测标签均为正类时,组合决策为自动签发决策,其余情况组合决策均为禁止自动签发决策。将测试集的32694条数据输入LISIV模型中,进行预测。测试结果为:LISIV的准确率为0.99,召回率为0.98,F1分数为0.99。由召回率可知,在被禁止签发的样本中,有98%的样本是被正确预测的。误判的样本中,多为组合决策导致的“保守”性误判,这也是召回率低于准确率的原因。这反映了LISIV对于未知数据的预测效果极佳,泛化能力较强。
3讨论
实现了基于机器学习的医学检验智能审核模型。以血常规检验数据为研究样本。实验结果表明,LISIV对未知样本的自动签发率为99%,禁止签发的样本中,有98%的样本是不合格的样本,即禁止签发的样本准确率为98%。使用LISIV后,仅需要将少数未通过的审核报告交由检验科专业人员进行复审,大大缩减了检验科工作人员的工作量,有助于提高检验科的效率。下一步研究可着眼于三个方面:将LISIV在其他检验项目上推广使用;采纳更多的病人个性化信息,包括诊断信息,以进一步提高模型的性能;对融合历史检验数据和病人的个性化信息的数据集进行更多角度的数据挖掘,以提升检验科的工作效率。
作者:刘骏龙 许晓泓 王华珍 何霆 金雅妮 单位:华侨大学计算机科学与技术学院