本站小编为你精心准备了学习食品安全事件实体抽取模型分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:实体在非结构化文本中不仅与词汇具有密切的关系,而且是构成短语的关键部分,特别是实体自身具有丰富的语义性,能够为后续语义知识的深度挖掘奠定基础。为了更好地从食品安全事件文本中挖掘出更加有价值和意义的知识,结合LSTM-CRF模型,笔者提出了食品安全事件实体抽取的基本流程,并构建了相应的食品安全事件实体抽取模型。在选取领域食品安全事件文本上,构建的食品安全事件实体抽取模型的调和平均值达到了相对可以接受的程度。基于深度学习的食品安全事件实体自动抽取模型不仅为实体的抽取提供了策略,而且在一定程度上验证了深度学习性能的整体状况。
关键词:食品安全事件;实体;LSTM-CRF
1引言
食品安全涉及到千家万户的切身利益,因此如何对食品安全进行全面、细致且有效的监管成为了控制食品安全事件发生的关键。通过构建细颗粒度的食品安全事件知识库是一种有效的方式和手段。在构建食品安全事件知识库的过程中,核心步骤是识别食品安全事件文本中的相关实体。因为实体在文本当中从形式上不仅是句法的有效构成部分,而且从语义上看扮演了极为重要的语义角色。所以,笔者基于经过人工标注的大规模带有命名实体的文本,结合BiLSTM-CRF这一深度模型,探究了食品安全事件中实体的识别问题。随着食品安全事件数据逐步的增加,目前针对食品安全事件文本进行的实体抽取主要基于新闻文本数据展开,主要通过机器学习的方法进行。基于ICTCLAS对新闻文本的自动分词,首先,江美辉等界定了新闻文本中的时间、地点、主体、事件这四类实体,并完成了对相应实体的抽取[1]。其次,在抽取的实体基础上构建了实体关系网络。最后,构建了一体化的食品安全事件实体抽取和分析平台。基于1500万字构成的食品安全事件语料库,王东波等首先获取了食品安全事件实体的内部和外部特征[2],其次制定了相应的抽取模板,并验证了模板的不同性能和特征。最后构建了基于条件随机场的食品安全事件实体抽取模型。许华等对医疗文本中实体的抽取与本研究相近[3],该研究首先完成了对医疗语料的分词,其次基于相应的词性标记集,对文本进行了词性标注,最后基于规则完成了对医疗文本中实体的抽取。基于统计获取的多特征,吴毅完成了对食品安全事件当中食品名称与诱因的实体的自动识别[4]。随着人工智能的兴起,基于深度学习的实体抽取逐步发展起来。例如,通过观察实体的分布特征,把深度信念网络有效扩展到神经网络上,冯蕴天等结合具体的实体抽取特征和任务,给出了一种基于深度学习的实体抽取框架[5]。通过分析实体所构成汉字的特征,利用深度学习模型可以自动发掘实体字与字之间的语义组合特征,Liang等利用BILSTM-CRF深度学习模型[6],发掘字与字之间的语义特征,构建了基于深度学习的实体识别模型,并在公开的数据集上获得相对突出的成果。通过分析中文地名的分布特征,沈思等针对中文地名实体抽取的具体研究任务[7],充分利用RNN这一深度学习模型,完成了对中文地名的自动识别,并比较基于字与基于词两种策略的优劣,通过具体的实验验证了基于字进行实体识别的有效性。上述基于深度学习的实体识别方法和技术,为本文构建基于深度学习模型的食品安全事件实体识别提供了直接而有效的借鉴。
2食品安全事件语料和模型介绍
2.1语料说明
通过对2195篇食品安全事件语料的分析,笔者定义了四类食品安全事件实体,即食品及食品安全事件实体、时间实体实体、人物及组织实体和地点实体,并通过人工的方式分别对以上四类实体进行了标注。为了将语料转化为可供神经网络模型训练和测试的格式,为了便于进行深度学习模型的训练,针对食品安全事件实体的内容特征,定义了17位标记集进行标注,并按照8∶2的比例将标注后语料分为训练文本和测试文本,在基于BiLSTM-CRF模型上进行自动标注测试。然后抽取了与“瘦肉精”有关的食品安全事件新闻语料,在同样的模型上对其进行十折交叉训练。通过计算Precision(准确率)、Recall(召回率)和F-measure(F值)对BiLSTM-CRF模型的识别效果进行评价。本文定义了17位标记集{B-f,I-f,E-f,S-f,B-l,I-l,E-l,S-l,B-t,I-t,E-t,S-t,B-p,I-p,E-p,S-p,O},以字或词为最小单位,对食品安全事件实体进行标记,各个标记的含义见下表1。例如对于食品及食品安全事件实体中的“瘦肉精”,对应的标记是“S-f”;人物及组织实体中的“北京市工商局”,相应的标记为“北京市B-p”,“工商局E-p”
2.2模型介绍
在深度学习系列模型中,循环神经网络RecurrentNeuralNetwork(RNN)是一种高效的序列标记人工神经网络[8],该模型能够有效解决反馈机制的问题,有效解决某一时刻下反馈结果计算的问题,具体隐藏层和输出层的计算公式如下。ht=f(Uxt+WHt-1)(1)yt=g(Vht)(2)虽然循环神经网络解决了反馈机制的问题,但是对于长距离依赖的特征知识问题,这一深度学习模型整体表现效果相对较差,其突出表现为会造成梯度消失和梯度爆炸问题。在上述这一背景下,长期短期记忆网络LongShort-TermMemory(LSTM)这一深度学习模型被提了出来[9]。LSTM模型通过记忆单元和门能够有效控制历时信息的存在和消失,具体使用的门包括输入控制门、输出控制门和遗忘门,具体记忆单元的计算如下。通过三个门,LSTM有效解决了RNN难以保留较远距离信息的问题,而BiLSTM(双向LSTM)模型能够有效控制正向和逆向的信息,从而实现存储两个方向的历时信息的目的。虽然能够有效保留相应的历时信息,但是当LSTM输出时会存在非常强的依赖关系,因此会影响模型的整体性能。在这一背景下,LSTM和CRF组合模型被提了出来,这一组合模型不仅能够有效考虑分词、词性、实体等上下文的信息和知识特征,而且在输出时CRF还能有效解决输出独立标签之间的依赖问题。为了确保面向海量食品安全事件抽取实体的整体性能,在具体实体抽取的过程中,使用了BiLSTM-CRF模型进行实体识别的实验[10]。根据对深度学习系列模型识别效果的评价指标要求,本文对基于BiLSTM-CRF模型的食品安全事件实体自动识别性能的评价主要通过三个指标进行衡量:准确率(Precision)、召回率(Recall)、F值(F-measure)。具体计算公式如下。式中,A代表正确识别出的食品安全事件实体个数,B代表错误识别出的食品安全事件实体个数,C代表未识别出来的食品安全事件实体个数。其中F值能够有效均衡精准率和召回率之间的关系。
3实体抽取结果分析
本文基于人工标注的2195篇食品安全事件语料,构建了包含164万行tokens的深度学习语料库。在具体的实验中将语料库按照8∶2的比例分为训练语料和测试语料进行实验。在具体实验过程中只使用了食品安全实体的字为基本单位。在具体实验过程中所使用的参数信息为:隐藏单元维度设置为300;batchsize的值设定为64;迭代次数界定为200;BiLSTM所使用的层数为3;earlystop界定为了100;特征数量设定成了6,而学习率的值为0.002。由于在基于深度学习训练实体识别过程中需要使用到GPU,因此对本文的实验环境介绍如下,CPU:Intel(R)Core(TM)i5-4590CPU@3.30GHz内存:16GBDDR4;GPU:NVIDIAQuadroK1200显存:4GBGDDR5;操作系统:ubuntu16.04。服务器上高性能的GPU可以支持大规模的并行运算。基于BiLSTM-CRF模型的实体识别结果如表2所示。在大规模语料上,本文得到的所有食品安全事件文本当中识别的结果,在调和平均值上达到了65.12%,仅从字的角度来看,获得的模型整体性能较为合理。在具体训练过程中,Trainloss总体趋势如图1所示。为了更进一步的探究模型性能,并在小规模语料和主题比较一致的语料上探究模型的性能。本文从现有语料中以瘦肉精为主题抽取了包含9000行的tokens深度学习语料在此模型中进行十折交叉训练,基于BiLSTM-CRF模型的在主题为瘦肉精的食品安全事件实体识别十折交叉实验结果如表3所示。从表3可以看出,在所选择的食品安全事件主题上最优的模型性能达到了90.11%,整体上达到了实用的程度,该模型的精准率达到了95.35%,这一组模型的性能指标充分说明了深度学习与条件随机场组合模型的突出的性能。但是从表3可以看出,个别模型的性能并不是太突出,究其原因,是所选语料的规模过小,因为在小规模的语料中,语料中实体的分布会存在不均衡和偏颇的问题。
4结语
食品安全事件中的实体不仅具有多维度的语义知识,而且是构成应对食品安全事件应对策略的重要知识单元,食品安全事件中实体识别的精准度对整个食品安全事件的知识挖掘具有重要的意义和价值。笔者在所选取的特定语料文本上,构建了基于深度学习的食品安全事件实体模型,并对该模型的整体性能进行了3个指标上的分析。在后续的研究中,应适当扩展训练模型的语料规模,并增加新的特征以提高整个模型的性能。
参考文献
[1]江美辉,安海忠,高湘昀,等.基于复杂网络的食品安全事件新闻文本可视化及分析[J].情报杂志,2015(12):121-127.
[2]王东波,吴毅,叶文豪,等.多特征知识下的食品安全事件实体抽取研究[J].现代图书情报技术,2017,1(3):54-61.
[3]许华.基于有监督学习的医疗实体抽取方法研究[D].武汉:武汉科技大学,2016:23.
[4]吴毅.基于复杂特征知识的食品安全事件多类型命名实体抽取研究[D].南京:南京农业大学,2016:45.
[5]冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-18.
[7]沈思,朱丹浩.基于深度学习的中文地名识别研究[J].北京理工大学学报,2017,37(11):1150-1155.
作者:沈思 胡业勋 单位:南京理工大学