本站小编为你精心准备了深度学习下电子病历实体标准化分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:电子病历中同一医疗概念的提及形式具有多样性,阻碍了医疗数据的分析和利用,研究电子病历实体标准化具有现实意义。设计并实现了基于深度学习的电子病历实体标准化算法,使用Siamese网络架构和LSTM网络搭建模型,采用Pairwise方法训练模型,在测试集上与传统的基于编辑距离的方法进行比较。对手术实体标准化的实验结果显示,深度学习算法正确率达到79.71%,比传统方法提高了17.4个百分点,表明了深度学习算法在电子病历实体标准化方面的有效性。
关键词:电子病历;实体标准化;长短期记忆网络;孪生网络
引言
随着医疗信息化的快速发展,各医院积累了海量的电子病历数据,如何有效利用这些数据提高医疗健康服务水平是研究热点。电子病历中同一医疗概念会有多种不同的表述形式,阻碍了医疗数据的检索、分析和利用。把形式多样的实体提及(EntityMention)映射到标准的医疗术语,即实体标准化(EntityNormalization),是有效利用医疗健康数据的前提。电子病历实体标准化研究由国际公开评测任务推动,最具代表性的两个评测任务是2013年的ShARe/CLEFeHealthSharedTask1b[1]和2014年的SemEvalTask7[2],这两个任务都是要找到电子病历中的实体(如疾病和症状)在“医学术语系统命名法—临床术语[3]”(SystematizedNo⁃menclatureofMedicine-ClinicalTerms,简称SNOMED-CT)中的编码。现有的实体标准化方法大多基于实体提及与标准术语的相似度得分。RohitJKate[4]通过改进的编辑距离计算相似度,RobertLeaman等[5]采用成对排序学习方法,用向量空间模型表示实体提及并引入权重矩阵计算相似度得分。LiHaodi等[6]使用深度学习方法取得在ShARe/CLEF数据集和NCBI疾病数据集[7]上的最高正确率,该方法先使用人工编写的规则从标准术语集中挑出候选,再基于卷积神经网络输出语义向量对候选排序。上述研究都面向英文电子病历,针对中文电子病历的实体标准化研究相对较少,且缺乏公开可用的标注数据集。赵亚辉[8]选取了国内某医院的门诊和住院病历作为实验数据,以国际疾病分类第10版(ICD-10)为目标术语集,研究了疾病名的标准化。在门诊病历上改进的编辑距离效果最好,正确率为76.6%,在住院病历上RankSVM的正确率最高,达到74.7%。
1实体标准化算法
1.1算法总体结构
基于深度学习的实体标准化算法总体结构见图1。本算法主要思想是计算手术名与各个标准术语的匹配度,选择最匹配的术语。匹配度计算采用Siamese网络。Siamese网络是一种神经网络结构而不是具体的某种网络,在自然语言处理和计算机视觉中应用广泛[9-13],它有两个结构相同共享权值的子网络。图1中的两个字嵌入完全相同,两个编码器也完全一样。输入的短语中每个字都会映射到一个多维稠密向量,称为字嵌入,也常称为字向量。本文使用LiS等[14]在百度百科的文本上训练出的字向量,并且在训练阶段使字向量保持不变,不再微调。然后使用编码器分别将两个字向量序列映射到目标向量空间(可以看成是特征提取),最后在目标向量空间使用欧氏距离表示两个输入的匹配度,欧氏距离越小则匹配度越高。本文未采用分类模型。因为手术的标准术语有上万条,如果把每个术语看作一个类别则类别数量庞大,而每个类别的样本数量较少甚至没有,用分类算法显然效果不佳。而Siamese网络能从训练样本中学习到匹配度模型,即使类别数量庞大也能获得不错的效果。
1.2BiLSTM网络
本文采用BiLSTM网络作为Siamese网络结构中用于提取特征的编码器。长短期记忆网络(LongShort-TermMemory,简称LSTM)是循环神经网络(RecurrentNeuralNetwork,简称RNN)的一种。普通的循环神经网络用于序列数据建模时容易产生梯度爆炸和梯度消失,难以训练。LSTM通过引入遗忘门、记忆门、输出门的三态门结构,使网络能够选择性地保留状态信息,解决了梯度爆炸和梯度消失问题。因此,LSTM适用于对序列数据建模,如文本数据。普通的LSTM只能捕捉到从前向后的信息,但在实体标准化任务中仅有单向信息是不够的。双向长短期记忆网络(Bi-directionalLongShort-TermMemory,简称BiLSTM)由前向LSTM与后向LSTM组合而成,也就是在单向LSTM基础上增加了一个逆向的LSTM,前向和后向的输出连接在一起作为整个网络输出,这样能更好地捕捉到双向序列信息[15]。
1.3训练方法
模型训练采用Pairwise方法,样本是一对短语,即手术名和标准术语。正例是病历手术名和对应的标准术语,反例是手术名和不对应的标准术语。两个短语的向量表示为F1和F2,它们的欧氏距离记作d(F1F2)。训练目标是使匹配两个短语的d(F1F2)尽可能小,而不匹配两个短语的d(F1F2)尽可能大。所以,损失函数需要满足两个性质:①对于两个匹配短语,d(F1F2)越小,损失函数越小;②对于两个不匹配短语,d(F1F2)越小,损失函数越大。本文使用对比损失[16]作为损失函数,定义如下:其中di和yi分别表示第i项样本的编辑距离和标签。yi=1表示两个短语匹配,yi=0表示两个短语不匹配。当yi=1时,该样本的损失是yidi2,显然满足第一条性质。当yi=0时,该样本的损失是max{0m-di}2,距离小于m时获得(m-di)2的惩罚,距离大于m时没有惩罚,距离越小损失越大,距离足够大时损失为0,满足第二条性质。本文使用随机梯度下降的改进算法Adam[17]使损失函数最小,训练时采用mini-batch模式。
2实验
2.1实验数据
手术是电子病历实体中的重要类别,本文选择中文电子病历中手术实体标准化问题进行实验。我国一直采用国际疾病分类第9版临床修订本(InternationalClassifica⁃tionofDiseases,NinthRevision,ClinicalModification,简称ICD-9-CM)作为手术与操作分类代码的填写标准,并于2015年对其扩码修订,收录了医院各个科室的各种手术与操作共计1万余条,内容准确完备[18]。因此,本文使用扩码后的ICD-9-CM中的标准术语作为手术实体标准化术语集。本文选取某三甲医院的300份电子病历中出现的345个不同手术名作为实验数据,并标注这些手术名对应的ICD-9-CM标准术语。随机选取20%作为测试集,剩下的80%用于训练。训练需要成对的短语,训练集中的手术名与对应的标准术语作为正例,反例是手术名与随机选取的不对应ICD术语。通过上述方式构建的数据对总计5429条,正负例比例为19∶1。
2.2实验环境、超参数与评价指标
实验代码使用Python3.6,Tensorflow1.8编写。硬件环境:IntelE5-1620v4,NVIDIAGeForceGTX1080。操作系统:Windows10。经过多次实验,选定的超参数见表1。大部分实体标准化研究都采用正确率作为算法的评价指标。标准术语数量多,实体标准化难度较大,因此本文除了top-1正确率以外,还加入top-5正确率作为额外的评价参考[19]。top-5正确率指算法给出的前5个候选中的正确答案比率。
2.3实验结果与分析
本文选择基于编辑距离的相似度算法[20]作为比较基准,计算公式为:式(2)中,A,B为待计算的两个字符串,len(A)和len(B)分别是字符串A和B的字符个数,d(AB)是A和B的编辑距离,即将A变成B的最小操作次数,允许的编辑操作为替换一个字符、插入一个字符、删除一个字符3种。表2中,Siamese-LSTM表示编码器部分使用单向的LSTM网络,LSTM单元数量为20。Siamese-BiLSTM表示编码器使用双向LSTM,每个方向有10个LSTM单元,总共20个。编辑距离算法的top-5正确率比top-1正确率高了约14.5个百分点,差距较大。通过分析编辑距离算法出错的样本,发现与手术名在字面上相似的标准术语有多个,匹配时易造成干扰,比如“左肺上叶切除术”对应标准术语是“肺叶切除术”,但对“余肺肺叶切除术”造成了干扰,使得编辑距离算法无法作出正确匹配。两种Siamese网络在top-1、top-5正确率上都明显好于编辑距离,可见对于手术实体标准化,仅依靠字面形式上的相似度,融合语义信息和序列信息的向量空间模型能有效消除干扰项影响,提升标准化正确率。对于Siamese网络编码器部分,双向LSTM在top-1、top-5正确率上均明显好于单向LSTM,尤其是在最重要的top-1正确率上提升了约11.6个百分点,说明手术实体标准化任务仅有单向序列信息是不够的,增加逆向序列信息能有效改善手术实体标准化效果。
3结语
电子病历实体形式多样,严重阻碍了医疗数据的分析和利用。本文针对中文电子病历实体标准化进行了研究。基于Siamese神经网络结构和Pairwise训练方法实现了手术实体标准化算法。实验结果显示,基于深度学习的方法比基于编辑距离的相似度算法准确率明显提高,表明深度学习算法可有效应用到实体标准化问题上。但目前算法的正确率尚未达到实际应用程度,还需对现有算法进一步优化,或者使用更优的模型和训练方法。
作者:赵逸凡 郑建立 徐霄玲 单位:上海理工大学