本站小编为你精心准备了基于特征选择实体关系选取参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
实体关系抽取是信息抽取研究中的一个重要环节[1],它的作用是抽取出两个实体之间的语义关系。目前,实体关系抽取一般都只考虑一个句子中两个实体间的关系,即实体关系抽取问题的输入是一个句子和句子中已经标记出的两个实体,输出则是这两个实体间的关系。目前解决实体关系抽取问题主要采用指导性机器学习方法,主流的指导性学习方法有基于特征向量的方法和基于核函数的方法。其中,基于特征向量的方法[2,3]是将关系样例进行特征抽取并将其表示为特征向量,然后通过机器学习的方法来训练关系实例。而基于核函数的方法[4,5]直接以结构树为处理对象来计算它们之间的相似度,再使用支持核函数的分类器进行关系抽取。然而,基于核函数方法的一个致命的缺点是训练和预测的速度太慢,不适于处理大量的数据。因此,本文以基于特征向量的方法解决实体关系抽取问题。由于基于特征向量的实体关系抽取方法中,特征空间维数一般能达到几万或者几十万维,这样的高维向量一方面将使得训练分类模型以及预测结果的时间开销大大提高,另一方面还可能由于引入了一些不必要的特征而使得抽取性能有所降低。因此,本文考虑将文本分类中的特征选择算法引入到实体关系抽取中,希望能在降低时间开销的同时提高抽取性能。
1实体关系抽取
1.1特征抽取
在基于特征向量的实体关系抽取方法中,其首要问题在于有效特征的选择[6]。本文提出的实体关系抽取方案中选择的特征分为五类:实体及其上下文词法特征、动词特征、距离特征、实体扩展特征、语义角色特征[7]。实体及其上下文特征主要包含实体中心词、实体前两个词、实体后两个词以及这些词的词干和词性。实体及其上下文特征是最基本、最简单的特征。动词特征表示句子中的所有动词。距离特征是指要抽取实体关系的两个实体间的词距。实体扩展特征是指实体的同义词和上位词。语义角色特征是指用实体的语义角色作为特征。
1.2特征选择
通过上面特征抽取的描述可以发现,实体关系抽取问题与文本分类[8,9]问题有相似之处,它们都是采用一串字符作为特征,因此从语料中抽取出的所有特征就组成了原始的特征空间。然而,一个小规模的语料库就要抽取出上万个不同的特征,对于分类器来说,这样的高维空间时间开销是非常大的[10]。因此,希望寻找一种特征选择方法,能在保证分类性能的同时降低空间维数,提高分类效率。对于文本分类问题,已经有很多成熟的特征选择算法用于特征降维。而对于实体关系抽取问题,却还没有相关研究。本文考虑到实体关系抽取问题与文本分类问题的相似性,拟将文本分类中的特征选择算法引用到实体关系抽取中,用于解决实体关系抽取问题中空间维数过高带来的问题。下面对引入的特征选择算法进行介绍。
1.2.1信息增益信息增益(informationgain,IG)这个概念也是来源于信息论。在实体关系抽取中,它表示了某个特征存在与否对实体关系分类的影响。它的值越大,代表影响越大,因此在用它进行特征选择时,总是选择信息增益大的若干个特征。信息增益的计算公式为IG(t)=P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))+P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))(1)其中:m代表实体关系的总类别数;P(Cj)表示类别为Cj的训练句子在整个语料库中出现的概率;P(t)表示整个语料库中抽取出的特征集合包含特征t的概率;P(t)表示整个语料库中抽取出的特征集合不包含特征t的概率;P(Cj|t)表示训练句子抽取出的特征集合包含特征t时属于Cj类的条件概率;P(Cj|t)表示训练句子抽取出的特征集合不包含特征t时属于Cj类的条件概率。
1.2.2期望交叉熵期望交叉熵(expectedcrossentropy,CE)与信息增益的区别在于:信息增益考虑了一个特征在训练句子中存在和不存在两种情况,而期望交叉熵只考虑了特征在训练句子中存在的情况。它的计算公式为CE(t)=P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))(2)
1.2.3x2统计(CHI)x2统计在统计学中是用于度量两个变量之间的相关性的。在实体关系抽取中,用于度量特征与类别之间的相关程度,在这里假设特征与类别之间符合具有一阶自由度的x2分布。在实际应用中,采用其近似公式为x2(Cj,t)=(AD-CB)2×(A+B+C+D)/((A+C)×(B+D)×(A+B)×(C+D))(3)其中:A表示属于Cj类并包含特征t的训练句子频率;B表示不属于Cj类但包含特征t的训练句子频率;C表示属于Cj类但不包含特征t的训练句子频率;D表示不属于Cj类也包含特征t的训练句子频率。为了得到一个特征对实体关系抽取的重要程度,可以将x2(Cj,t)进行加权求和,和值越大代表该特征对实体关系抽取越重要。
1.3实体关系抽取方案
按照本文提出的实体关系抽取方案,根据上面描述的一系列步骤,利用SVM算法构造分类器以判断实体关系类型。本文使用的实体关系抽取方案具体步骤如下:a)原始语料预处理。对原始语料进行词性标注、句法分析和语义角色标注。b)特征抽取及特征向量构造。对于语料里每条句子中的实体对,先从预处理后的文本中抽取出上文描述的特征,然后将抽取出的每个特征值作为实体对的特征向量中的一维,由此构成了实体对的特征向量。c)特征向量降维。利用前面讲到的特征选择算法对上一步构造出的特征向量进行特征选择,将选择出的有效特征重新组成特征向量。d)构造分类器。用训练语料中实体对降维后的特征向量构造SVM分类器。e)输出分类。利用训练得到的SVM分类器判断测试语料中实体对的关系类型。
2实验结果及其分析
2.1实验数据
实验使用的数据由SemEval-2010评测任务8提供。Se-mEval(SemanticEvaluations)是国际知名的语义处理评测会议,由著名的ACL(AssociationforComputationalLinguistics)中的SigLex组织主办。SemEval-2010评测任务8将实体关系类型分为九类,提供的训练语料包含8000个句子,每个句子均标出了两个实体及其所属关系类型。在本文的实验中,将8000个句子的前800个句子作为测试语料,其余的句子作为训练语料。表2为实验中训练语料和测试语料的所属关系类型统计。
2.2实验评价标准
本文采用准确率P(precision)、召回率R(recall)和F1值(F1-measure)作为评测标准。它们的定义如下:P=T/E(4)R=T/N(5)F1=2×P×R/(P+R)(6)其中:T为某类被正确分类的实例个数;N为测试数据中某类实例实际总数;E为分类器预测为某类的实例总数。
2.3实验过程及结果分析
实验首先对语料进行词性标注、句法分析和语义角色标注等预处理;然后按照上述特征抽取方法产生特征向量;接着利用上面讲到的特征选择算法进行特征降维;最后,使用LIBSVM对抽取出的特征向量进行训练分类。由于现有特征选择方法通常采用经验方式来确定特征数目,因此为了得到各特征选择方法在达到最佳分类性能时的特征数,本文采用了逐步增加特征数的方法来确定,实验结果如图1所示。从图1可以看出,对于IG方法,特征数从5000增加到30000时,分类性能只增加了2.3%,即新增的特征并没有对分类性能产生多大的作用。对于CE和CHI也是类似的,而且对于CE方法,它的分类性能在达到一定程度之后,则不再随着特征数的增加而增加。同时笔者发现,当选择的特征数达到某个阈值时,各特征选择方法性能均会达到最佳状态,如果此时继续增加选择的特征数,性能不但不会进一步提高,而且还有可能下降。对于这个使得性能达到最佳状态的阈值的确定,则需要通过大量实验才能得到。
表3给出了各个特征选择算法对应的实体关系抽取方案的性能比较。比较表3的分类性能数据可以发现,无论使用哪一种特征选择方法都没有提高实体关系分类性能,最好的情况也就是不降低它的性能。这是由于在实体关系抽取方案中加入了特征选择算法之后,降低了分类时特征空间维数,而在这个降维过程中,有一些对实体关系抽取有用的信息被丢掉。虽然增加了特征选择的实体关系抽取方案可能会降低实体关系分类性能,但从表2的数据可以看出,该类方案依然是有其价值的。这是因为首先这类方案只是略微降低了分类性能,比如SVM+IG方案只降低了0.7%,SVM+CE方案只降低了1.5%;其次,该类方案有效地减少了分类时的特征数,提高了效率,比如SVM+CE方案以将性能降低0.7%为代价将特征数也减少到了24.7%,而SVM+CHI方案则在保持分类性能的基础上将特征数减少到了24.1%。由此可以看出,该类方案是将分类性能和效率作了一个权衡,在尽量保证分类性能的同时提高分类效率。在实际应用中可以根据需要选择合适的实体关系抽取方案。对于IG、CE和CHI三种特征选择方法,从图1和表3的实验结果可以看出,CHI是更适合于实体关系抽取的。因为在选择相同特征数时,以CHI得到的实体关系抽取性能最好。
3结束语
由于实体关系抽取问题与文本分类问题的相似性,本文引入了文本分类中的特征选择算法,用于解决基于特征向量的实体关系抽取问题中特征空间维数过高的问题。实验结果表明,本文引入的基于信息增益、期望交叉熵和x2统计的特征选择算法均能有效地降低实体关系抽取中的特征维数,减少抽取的时间开销,且保持了实体关系抽取的F1值。然而,特征选择过程希望最好在降低特征维数的同时提高抽取性能,这个目标是困难的,也将是笔者下一步的研究方向。另外,考虑到本文只是简单引入了文本分类中的特征选择算法,下一步也可以组合多个特征选择算法,以期更进一步地进行有效特征降维。