美章网 资料文库 并列结构识别研究范文

并列结构识别研究范文

本站小编为你精心准备了并列结构识别研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

并列结构识别研究

《电脑与信息技术杂志》2014年第三期

并列结构分为有标记的并列结构和无标记的并列结构。吴云芳[8]指出,对于有标记的并列结构,处理的关键是确定并列结构的边界;对于无标记的并列结构,处理的关键是辨别同类词连用形式的歧义格式。下面介绍并列结构识别的三种方法:自底向上的图表算法、中心词驱动的并列结构识别、基于条件随机场的并列结构识别。

1自底向上的图表算法

自底向上的图表算法是Hara[5]等提出的,解决嵌套的和非嵌套的并列结构的识别。自底向上的图表算法即可以处理非嵌套的也可以处理嵌套的并列结构。该方法包含下面两个步骤:定义并列结构的语法结构;并列结构树分值的选取。(1)并列结构的语法结构并列结构的语法结构是为了确保两个或多个并列成分的一致性。对于任何两个并列结构,它们或者是没有重叠的两个独立的并列结构(非嵌套)或者是一个并列结构是另一个并列结构的一个并列成分的内部部分(嵌套)。并列结构分为完全并列结构(COORD)和部分并列结构(COORD’),主要是为了处理包含三个或三个以上并列成分的并列结构。例如,(a,b,c)在句子中有下面三种形式的并列结构树,如图1所示。其中,图1(a)中的内部树(bandc)是部分并列结构,它与前面的并列成分a一起构成一个完整的并列结构,部分并列结构用COORD’表示。图1(b)是嵌套的并列结构,bandc是完整的并列结构,a与(bandc)有构成一个并列结构,且(bandc)是该并列结构的一个并列成分。图1(c)中不包含并列结构。(2)并列结构树分值的选取自底向上的图表算法能够有效的获取由一个句子产生的分值最高的并列结构树。并列结构树的分值取所有节点的加和,并且每个节点的分值的计算都是独立的。这里只将COORD和COORD’两种类型的节点设为非空值。并列结构节点的得分是通过捕捉连词下方的序列对的对称性获得的。

2中心词驱动的并列结构识别

中心词驱动的并列结构识别算法是由吴云芳[8]提出的,该算法分为下述3个步骤:(1)利用边界特征词划定并列结构的大致范围。(2)对于名词性的右中心结构(如图2所示),并列标记之前第一个词语被认定为前并列成分中心词,根据一系列相似性原则,在并列标记后搜索与前中心词相似度最大的词语作为后并列成分中心词,后并列成分由此确定;对于动词性的左中心结构(如图3所示),算法类似只是方向相反。(3)根据并列成分结构平衡与相似的原则,在并列结构前端搜索与后并列成分平衡性和相似性最大的词串作为前并列成分。步骤1中提到的边界特征词是指大多位于并列结构外部而不位于并列结构的内部的词语,如果位于并列结构内部,该词一般情况下只与其自身形成的并列结构。吴云芳将并列结构的边界特征词分为3类。前边界特征词、前边界特征词类、后边界特征词。其中,前边界特征词主要有:来自、受到、得到、有利于、包括、具有、涉及、是、作为、如、诸如、例如、来等;前边界特征词类主要是连词(C)和介词(P);后边界特征词主要有:等、等等、都、分别、均、共同、也、之间、来、联合等。

3基于条件随机场的并列结构的识别

用于自然语言处理的统计机器学习模型有很多种,如:最大熵、隐马尔科夫、条件随机场等。条件随机场作为一个无向图模型在序列标注问题上比隐马尔科夫模型、最大熵模型等有向图模型识别的效果好[18]。王东波[11,19]运用条件随机场识别有标记的联合结构。条件随机场模型是Lafferty[20]在最大熵和隐马尔科夫模型的基础上提出的一种用于标注和切分的序列化标注模型。基于条件随机场(Crf)的并列结构识别的系统流程图,如图4所示。

4结束语

并列结构是一种特殊的语言形式,且并列结构识别是自然语言处理不可或缺的一部分。并列结构各并列成分的相似性除了结构平行性之外,还有中心语相似的特性。并列结构能得到很好的识别,许多自然语言处理的其它问题都能迎刃而解。但是,目前并列结构的识别效果并不理想。本文对已有的并列结构识别的研究方法和研究成果作了相应介绍,希望能对并列结构研究的学者给予帮助。

作者:王杨单位:辽宁行政学院