美章网 资料文库 融合关系和内涵属性的应用范文

融合关系和内涵属性的应用范文

本站小编为你精心准备了融合关系和内涵属性的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

融合关系和内涵属性的应用

《计算机应用研究杂志》2015年第五期

1融合关系内涵性的概念图表示

根据汉语概念内涵逻辑理论[10],将整个语义语境分为心理世界和物质世界,其中在人脑中的概念属于心理世界,而词语和实体属于物质世界。整个过程细分为:从实体到词语的一个分类过程;从概念到词语是一个命名过程;从词语到概念再到实体,以及反过来实体到概念再到词语是一个词语的理解、表达的过程。也就是理解一个词语需要经历上面四个过程。计算机理解自然语言的语义,同样需要经历上面四个过程。本文主要根据汉语概念的内涵逻辑模型理论,在传统的概念图知识表示方法中加入概念内涵属性,提出一种新的知识表示方法。

1.1构建本体传统的概念图能够直观地表达自然语言的语义,在构建概念图的过程中需要领域专家的参与,从而导致概念关系的引入存在随意性,概念图的完整性难以得到保证。整个过程中,领域专家根据概念的内涵和外延特征判断两个概念之间的关系,在结果图中概念只是包含外延,而应用于语义计算的内涵需要观察者判断。概念的内涵可以通过属性名-值(AttributeValueStructure)AVS的列表结构来表示[11]。基于概念内涵属性的E-A-V结构图将两个概念的关联属性作为关系,假设概念的属性名之间相互独立[12],如图2。E-A-V结构图更多的是注重于概念的内涵属性值,而忽略了概念内涵属性的整体表达性,也即概念的内涵属性并不是简单的赋值组合彰显概念,而是具有内在联系性。在这里,AT就是领域概念所有AVS列表结构的集合。TR是根据美国国家标准研究院评测定义的七种类型的有限集:制造关系(ART)、类属关系(GEN-AFF)、转喻关系(METONYMY)、组织结构从属关系(ORG-AFF)、局部整体关系(PART-WHOLE)、人物关系(PER-SOC)以及地理位置关系(PHYS)。虽然关系的类型是有限集合,但是两个概念间的属性列表结构的组合有很多种,从而使得概念图的表现形式多种多样。

1.2A&R概念图的形式描述定义2在领域本体构建完成的基础上,同样为了便于进行语义计算,包括概念节点和概念关系节点;为概念节点集合,每个概念节点都包含一个AVS列表结构;为概念关系节点结合;为AVS列表节点集合,节点和概念节点一一对应;为映射函数,对于每个概念节点,都可以通过映射:。同样,对于概念关系节点),存在映射:。为边的集合。

1.3A&R概念图的构建整个C-A&R概念图的构图过程分为以下步骤:首先,从给定语料库中抽取出构建领域本体Ontology的概念词典以及属性词典;其次,根据中文上下文语义环境选择合适的概念;然后,根据选择的概念,从本体的属性词典中抽取出对应的属性名,结合上下文语义环境赋予对应的值,构建AVS列表结构;再次,依据概念的AVS列表结构,从有限关系集合中选择适当的关系;最后,根据已经选择好的概念,关系和AVS列表构建概念图,人工进行筛选。如图3所示:

1.4例说明对中文句子“小明是计算机科学与技术专业的学生,选修了操作系统,小华也选修了!”构建C-A&R概念图,如图4。提取概念:[Major:计算机科学与技术]、[Student:{小明、小华}]、[选修]和[Course:操作系统]。通过查《现代汉语词典2010》,构建每个概念对应的AVS列表,如表1所示。本文总结画图的具体过程如下:对中文句子进行分析,采用ICTCLAS2014分词系统进行分词,抽取出其中的N名词、NP名词短语、V动词、VN动名词以及表示时间、地点的副词和表示数量的量词作为初步概念节点。a)将当前抽取出的词进行筛选,去冗余和噪声,也即找出语义上明显相似的词。b)确定同类概念间的层次关系,按语义的包含性进行排序。c)确定概念图中的起始概念节点、中心概念节点和结束概念节点。d)由起始概念节点开始,从左至右依次排列句子中所包含的概念。e)将排列的概念节点中的属性-值列表标出,从属性-值列表中得出概念间的关系。f)确定概念间的关系,并依次填入到关系节点中。在画图过程中,关键是抽取中文句子中的概念节点,判断起始概念节点,确定中心概念节点以及结束节点。对概念的属性,采用《现代汉语词典2010》中对词的表述,人工抽取以及确定属性值。从概念集中筛选冗余的概念和根据两个概念的属性-值列表确定关系节点,需要领域专家的经验。

2实验与结果分析

本文设计了一个自动问答系统来考查C-A&R概念图表征汉语语义的有效性和可靠性。事先对语料库进行了甄选,从实验室开发的科技评审系统所涉的一些用户常见问题和答案中挑选文本作为实验文本。实验的方式采用传统的手工构建,人工抽取,在此基础上用计算机进行匹配。问句构建C-A&R概念图时,首先将其转换成陈述句,并且保证关系是二元关系。把起始概念作为中心概念。答案文本的内容较多,包含的概念有多有少,并且叙述的层次性、并列性以及分点性等特点给构图增加了难度。同时答案中包含大量的复合概念,需要大量的概念图连接、投影、限制和合并等操作。本次实验构建了103个中文句子(包含嵌套子句)的C-A&R概念图,包含556个概念节点和35个不同关系节点。实验从三个方面即准确率、召回率和F值(β=1)来对系统进行评价。

2.1数据存储本文考虑概念图的层次结构以及复杂程度的不同,拟采用XML文档的形式进行存储。在设计节点时,采用三级节点的形式:概念图节点<Graph>、概念节点<Concept>和概念关系节点<Relation>。如图5所示:

2.2的结果与分析本次实验文本中,总共包含21个问句,21个答案文本以及35个评审相关的中文句子的概念图和26个子句概念图。实验采取两种方式进行:一、根据用户输入的问句直接在问句文本中查找出问句,而实验问句事先已经和答案文本一一对应;二、根据用户输入的问句,提取关键字作为概念,直接在答案文本的概念图库和评审句子概念图库中查找。两种实验方法的原理是一样,第一种通过查找问句间接找到答案,第二种是直接和答案匹配。具体实验结果如表2、3所示。从实验结果可以看出,使用C-A&R概念图来表示中文句子,比传统的概念图的效果更好。目前本文的实验主通过机器抽取,人工判断抽取结果,假设抽取的结果的正确率都是1,根据实验结果可以得出,在给概念图中的概念节点添加内涵属性后,显然能够提高精确值。

3结束语

本文根据Sowa的概念结构理论,结合E-A-V结构表示方法,在传统的概念图中加入了概念属性-值列表集合,从而将概念所包含的内涵和外延显式的表征在概念图中。在进行概念图的匹配操作时,从当前图中的概念节点、关系节点和属性-值列表判断两张概念图的相似性。本文对概念图的知识表示方法进行了研究,并且提出了一种新的知识表示方法,为中文信息语义匹配提出了一种解决思路。根据本文提出的初步设想,在今后的研究中,将重点研究在概念节点确定下,如何根据概念节点识别所包含的有限属性以及确定两个概念节点间的关系。

作者:钟茂生 邹志兵 单位:华东交通大学 信息工程学院