本站小编为你精心准备了档案管理中的文档分类技术应用的分析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
文档分类,或者称之为自动地指派语意上的类别予以由自然语言所构成的文档,是目前常用来管理档案信息的一种方法。归纳式的文档分类希望从一些事先标定的文档集里推导出一个分类的准则,此后可以正确地应用此分类准则来对未知的新文档做分类。
一是二元(Binary)设定法。二元设定法是最简单,也是学习型问题(LearningProblem)里最重要的设定公式。其它复杂的设定法都可以通过一定的简化步骤,退化为二元设定法的公式。在二元设定法里,只存在两种类别标签。例如在档案信息检索(InformationRetrieval)的应用问题里,此两种类别标签可以被标定为“相关”或者是“不相关”这两大类。同样的,在电子档案的分类应用里,可以将接收的电子档案区隔为“垃圾文档”与“非垃圾文档”这两大类。这代表类别标签的值只能有两种可能的值,为了符号定义的方便,这两种可能的值设定为-1与1。
二是多类别(Multi-Class)设定法。有些分类的问题牵涉两类以上的分类法。例如一个电子文档派送程序,它负责判断是否将所有接收到的电子文档转发给十位中层管理人员。这代表类别标签可以是十个(更广义的说法为l)同的值。
三是多标签(Multi-Label)设定法。绝大多数文档分类的问题落在该设定法内。它和多类别设定法不同之处在于类别标签和文档之间不是一对一的对应关系。相反地,每一个文档都可以落在多个、唯一一个,甚至是零个的类别之内。例如,当档案的情境为分类新闻报导时,每一个语意上的主题都可以成为某一类别的标签,所以一篇新进的新闻报导可以同时落在“足球”和“巴西”这两个不同的类别之内。这类的设定法可以用一个多维度的二元向量来代表众多的类别标签。因为类别标签已经使用单维度的二元向量的方式来表示,分类规则所产出的结果也必须是单维度的二元向量。
二、档案管理中的文档分类应用词汇
在处理自然语言的问题时,文档内的上下文脉络(Context)会影响一段文字表达的意义,同样的一个单词,在不同的句子里可以有不同的意义。在文档分类的问题里,会采用不同的方法来表达文字,根据不同的需求,可能会也可能不会辨别这些不同的相依性和意义。一般而言,根据文档分析层级的深度,总共有下列四种不同的表达法:次词(Sub-Word)层级;字词(Word)层级;多词(Multi-Word)层级;语意(Semantic)层级。在每一个层级里,最基本的构成组件(BuildingBlock)称之为索引字(IndexTerm)。
一是字词(Word)层级。在很多的情况之下,单词是很好的表达单位,同时单词具备很低的模棱两可性。尽管存在所谓的多义词,但也假设其对整体文档的代表性的冲击是很小的。事实上,字词层级的表达方式已经被证实在信息检索与文档分类的领域里是很有效的。以单词为基础的表达方式的优点为简单和直觉。不考虑逻辑上的结构,使用单词当成是索引字的最小单位可以把一份文档转化成一连串单词的组合。同时我们假设单词出现的顺序在文档分类的任务中是无关紧要的。
二是次词(Sub-Word)层级。该层级不使用单词当成是索引字,一个由n个字母所构成的字串被视为基础的构成组件,这种表示法可以建立相似性的模型,如“computer”和“computers”是不同的单词。使用这种表示法的优点是系统可以处理拼字错误,允许使用者输入错误的单词,经由系统比对,自动找到类似的单词。
三是多词(Multi-Word)层级。借助语言学上的工具的辅助,大量的文档可以基于句法(Syntactic)上的结构做深入的分析。在这一个层级里,索引字通常是参考句法结构的信息所产生的。最常被使用的句法结构之一是“名词片语”。这种方式通称为句法片语索引(SyntacticPhraseIndexing)。
四是语意(Semantic)层级。到目前为此,现今既有的信息科技与技术尚未能做到自动化的摘取一份文档的内容所代表的完整语意,并且表达成可以用以作为数学运算的形式。但是就某些角度而言,有研究指称可以使用分类学以及一些固定字汇的索引语言来取得文档所代表的语意。网络上的Yahoo!分类架构就是其中一个例子。Yahoo!使用阶层式的分类树,用以组成整体的分类结构,接着以人工的方式将网页分到一至多个的分类类别里。
作者:卢红单位:山东电力建设第三工程公司