美章网 资料文库 中国医学语言体系整体进度范文

中国医学语言体系整体进度范文

本站小编为你精心准备了中国医学语言体系整体进度参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

中国医学语言体系整体进度

1目标和意义

该研究第一阶段的目标是建立一个基于计算机管理的“统一的中国医学语言系统”,该系统由中国医学用语数据库、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统3个部分组成。该系统将为实现中文生物医学文献计算机标引和分类,加快文献处理速度,提高文献处理的准确性和一致性提供良好的支撑环境;同时将最大限度地跨越语言表达的差异性和相关信息的分散性,为生物医学信息一体化检索提供有效的帮助。该系统的实现将使传统的中文医学文献处理和检索发生根本性的变革。

2国内外研究现状

美国国立医学图书馆自1986年开始研制统一的医学语言系统(UnifiedMedicalLanguageSystem,UMLS),其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中。该系统由超级叙词表、语义网络、信息资源及专用词典组成。其中超级叙词表囊括了“MedicalSubjectHeadings”(医学主题词表)在内的词表、分类表70余种,涵盖了生物医学概念73万项,相关名称15万条。该系统在计算机辅助文献标引、研制开发相关文献的数据库及具有辅助检索功能的IGM和PubMed信息检索系统方面发挥了巨大作用,提高了计算机自动处理的程度,极大地方便了用户的查询。国内科技信息界自20世纪90年代后相继进行了分类—主题词一体化词表的研制工作,如国家图书馆编制的《中图法—汉语主题词对照表》,中国医学科学院信息所与图书馆编制的《中图法与MeSH、中医药学主题词对照表》等。它们的最大特点是标引数据时,可同时完成文献的主题标引和分类标引,并提高了标引的速度和一致性。

3系统的构成与功能

3.1中国医学用语数据库该数据库来源于10余种生物医学词表、词典及分类表,可分为以下几种类型。

3.1.1叙词表。如《医学主题词表》,《中医药学主题词表》,《统一的医学语言系统—超级叙词表》(UMLSMetathesaurus等。

3.1.2分类表。如《中国图书资料分类法》,《国际疾病分类法》等。

3.1.3辞典。如《中药大词典》,《汉英中医药分类辞典》,《英中医学辞海》,《英汉医学词汇》、《英汉医学缩略语词典》等。该词库的特点是:收词量大,覆盖范围广,包括医学、药学、牙科学、中医药学及其他相关学科的词汇约160余万条;收词类型丰富,包括主题词、关键词、化学物质登记号、酶代码、分类号、缩略语等;兼容英文词汇,译名规范;实时对词库进行添加、更新和维护的动态性。

3.2中国医学用语语义网络系统运用对比、分析和综合研究方法,对医学用语数据库的160多万词条进行概念规范、表达方式规范和语义规范,并建立反映相应关系的标准代码,以便于自动化处理。

3.2.1概念规范。概念或涵义作为该数据库的基础和核心,在两个方面进行规范:确认中文医学领域内业已存在的确切概念和概念的规范化表达形式(规范化用语)。

3.2.2表达方式规范。对概念的不同表达方式进行同义规范。例如对某一疾病的缩略语、单复数、不同名称、疾病代码等表达方式的规范。

3.2.3语义规范。通过分析概念的内涵和外延,建立概念间的上位—下位(分—属)及相关关系,为智能化的信息检索和知识分析提供强大的基础保证。

3.3中国医学用语数据库与标引检索语言数据库

转换系统通过建立“中国医学用语—医学主题词对应数据库”及“医学主题词—分类号对应数据库”,完成自然语言与规范化词表语言间的转换,实现自然语言与主题、分类检索语言的一体化。

3.3.1中国医学用语—医学主题词对应数据库。依据美国国立医学图书馆2000年《医学主题词表》MeSH中文版及《中医药学主题词表》(第二版),对医学用语进行概念、词汇与主题词间对应关系的标示,建立医学用语—医学主题词对应数据库、关键词—副主题词对应库、关键词—特征词对应库、禁用词库等多个数据库。

3.3.2医学主题词—分类号对应数据库。以“中国医学用语与医学主题词对应数据库”和《中国图书馆分类法》(第4版)为基础,对主题词进行与分类号间对应关系的处理。

4系统研究进展情况

4.1建立“中国医学用语—医学主题词对应数据库”及“医学主题词—分类号对应数据库”为适应数据库建设的需要,解决文献标引量大、成本高、人员少的矛盾,1994年在研制CBMdisc的同时开始尝试建立“中国生物医学文献计算机辅助标引系统”,而基础词表的建立是实现该系统的先决条件。首先利用人工方法从中国生物医学期刊的文献中抽取了近20万个关键词,借此建立了关键词—主题词对照表(现称中国医学用语—医学主题词对应数据库),并以《中国图书馆分类法》(R类)、MeSH、《中医药学主题词表》为蓝本,扩充了相应的类目,建立了含4万余条记录的主题词—分类号对照表(现称医学主题词—分类号对应数据库),由此形成了一套关键词到主题词、主题词到分类号的自然语言与受控语言的对应转换系统。

4.1.1抽取关键词的原则。关键词应词义明确、专指,能反映文献中论述的某一事物、对象、问题的主要概念;关键词应符合概念逻辑、通用、实用,可以用单字、单词或复合词,一般采用名词,不用动词、形容词等词类;关键词应考虑副主题词概念的组配。

4.1.2关键词—主题词对应原则。第一,一个关键词至少对应一个主题词,应选用最专指的主题词,如关键词“肝内胆管”对应成主题词“胆管,肝内”。第二,一个关键词如无相应专指主题词对应,应选用概念最接近的主题词,或主题词/副主题词组配表达,如关键词“肝囊肿”对应成主题词“肝疾病;囊肿”,关键词“肝损伤”对应成主题词/副主题词“肝/损伤”。第三,一个关键词对应两个以上意义不同的主题词时,应在每个主题词前做出材料识“$”,如关键词“HP”可以对应成主题词“螺旋菌,幽门”,也可对应成主题词“触珠蛋白类”。第四,遇到概念模糊不清的关键词,不予转换成主题词。

4.1.3主题词—分类号对应原则。第一,一个主题词至少有一个R类(医药卫生)相应类号对应,如主题词“肝疾病”的对应分类号为“R575”。第二,必要时,一个主题词可以对应几个类号,如药物主题词可根据不同的用途和药理作用对应几个相应的类号。第三,社会科学、生物学等学科主题词与《中国图书分类法》R类的相应类目进行扩充或仿分对应。第四,采用直接、上位类、靠类、多号及组配等技术方法对主题语言与分类语言进行概念的对应处理。第五,副主题词与临床医学专用复分号对应,地理主题词与地理复分号对应。

4.2中国生物医学文献计算机辅助标引系统

1996年在上述两个数据库初具规模的基础上,采用C++语言和VisualFoxPro开发成功了“中国生物医学文献计算机辅助标引系统”,该系统已成为我国第一个进入实用阶段的计算机辅助标引系统。它使医学文献的标引深度由原来的每篇文献3个主题词增至8-10个,分类号由1个增至3-5个,文献的处理速度由每年处理4万条数据增至20万条左右,数据的更新速度大大加快,文献的加工处理费用大大降低。该系统包括主题标引系统和分类标引系统。

4.2.1主题标引规程。医学文献主题标引包括主题词、副主题词、主要概念主题词(加权主题词)及特征词的标识。

4.2.1.1确定标引源:以科技文献中的标题、文摘、作者、关键词作为标引源。

4.2.1.2确定切分规则:采用最大字串匹配法对文献的标题、文摘、作者、关键词逐字进行扫描。

4.2.1.3确定转换规则:对主题词、副主题词、特征词分别进行转换。

4.2.1.4确定主题词数目:根据主题词的出现频率和出现位置计算每个主题词、副主题词、特征词的得分,选择得分高的主题词、副主题词和特征词作为标引词。

4.2.1.5确定主要概念主题词:根据主题词分值的高低,划分主要概念主题词(加星号主题词)和非主要概念主题词。

4.2.1.6确定高频主题词转换规则:对主题词表中的高频词不予转换,如“研究”。

4.2.1.7标引人员的干预:标引人员对机标后的主题词进行审核。

4.2.1.8标引结果的合法性检查:计算机对标引结果进行检查,包括主题词、副主题词、特征词的规范程度,主题词/副主题词组配是否正确,等。

4.2.2分类标引规程。根据每篇文献标引的主题词,依据“主题词—分类号对应数据库”及其一些特定规则进行分类号的转换。

4.2.2.1主题词—分类号转换规则:依据“主题词—分类号对应数据库”进行主题词到分类号转换。如:主题词“肝肿瘤”,转为分类号“R735.7”。

4.2.2.2副主题词—专用复分号转换规则:依据“副主题词—复分号对应表”进行副主题词到复分号的转换,并将复分号加到主类号后。如:副主题词“/诊断”转为复分号“04”,故主题词“肝肿瘤/诊断”,转为分类号“R735.704”。

4.2.2.3儿科学类号转换规则:依据“主题词—分类号对应数据库”及“特征词”进行主题词到分类号的转换。如一篇“儿童高血压诊断标准探讨”的文献,标引的主题词为“高血压/*诊断;参考值”,特征词为“儿童;人类”,如仅依据主题词则分类号转换为“R544.104;R-05”,而依据主题词和特征词则分类号转换为“R725.441.04;R-05”。

4.2.2.4外源性和内源性物质类号转换规则:一个主题词既为外源性物质又为内源性物质时,依据标引的副主题词确定类号的转换。如主题词“C肽”既可转为外源性物质类号“R977.6”又可转为内源性物质类号“R341.43”,如同时有副主题词“/治疗应用”存在时,则主题词“C肽”仅转为分类号“R977.6”。

4.2.2.5地理主题词—地理复分号转换规则:依据“地理主题词—复分号对应表”进行地理主题词到地理复分号的转换。为了适应计算机检索的需求,不将地理复分号一一加到每个主类号后,而是将其设为单独的类号,并以“RZ”作为地理复分类号的标识,如地理主题词“北京”转为分类号“RZ21”。

4.2.2.6实验动物类号转换规则:原则与地理主题词—地理复分号转换规则类似,即不一一将“-332”加到每个主类号后,而是将其设为单独的类号“R-332”。

5展望

建成后的“统一的中国医学语言系统”对医学词汇的规范、统一、标准化及科技信息的交流具有重要价值,可用于英汉医学用语对译式辅助翻译系统和基于自然语言、中英文双语功能的检索软件的开发、研制。该系统在提高文献标引质量、处理速度、方便检索和提高检索效率,开发高水平数据库及信息检索系统等方面都具有重要意义。