本站小编为你精心准备了文本挖掘的案例推理系统研究参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
《情报科学杂志》2015年第十一期
1引言
基于案例推理(Case-basedReasoning,CBR)是近年来人工智能领域一项重要的问题求解与学习相结合的推理技术,它是基于过去的实际经验或经历而对当前问题进行处理的一种方法。1987年以来,国际上每年都会召开CBR研讨会(ICCBR,EC⁃CBR),极大促进了CBR理论与应用的发展。近年来,关于CBR的研究主要集中在CBR与其他人工智能方法的结合与比较,CBR作为解释机制的算法研究,CBR案例改编机制研究,分布式的案例推理与学习研究等等【1-2】,目前已在故障处理、疾病诊治、决策支持、案件审理等领域取得了较好的应用效果【3】。然而,传统CBR研究所关注的案例提取,重用,改编与保存的推理循环过程只是其发展的一方面,研究却很少关注使用系统的用户,而在一定层面上用户是否积极参与决定了CBR系统的成功与否。正因缺乏与用户交互等原因,当前许多CBR系统仍面临着案例库案例过时,案例表示缺乏可扩展性,案例数量停滞无增长,系统缺乏用户参与协作等问题【4】。而Web2.0作为一个以多数人取代少数人智情报科学第33卷第11期2015年11月慧与贡献的平台,更注重用户与Web间的交互,用户既是信息的浏览者又是信息的创建者,这在一定程度上与CBR作为人机交互系统的理念不谋而合,同时对于含有大量文本的CBR系统案例库,需要一定的技术辅助其发现文本中隐藏的趋势或信息。鉴于此,本文拟从Web2.0与文本挖掘的角度进行研究,该方向的研究目前相对薄弱,相关的论述也较少。国外学者WuHe,TawnyaMeans等人指出了传统的单独式CBR系统设计成本高,拓展性差等问题,阐述了基于Web的CBR应用所具有的优势并将其称作CBR2.0【4】;QiangYang与JingWu认为案例结构应越简单越好,强调通过聚类划分案例,对于文本案例也可根据附加在案例上的属性值来进行分类【5】。截止2013年6月20日,笔者在中国知网(CNKI)中以“案例推理”与“Web2.0”、“文本挖掘”等组合为关键字共检索出相关文献3篇。其中华南理工大学的李峰针对Web2.0环境下自底而上的知识形成过程,提出了基于案例的知识管理系统【6】;合肥工业大学的戴奇波、倪志伟等人设计了一种基于动态数据流挖掘的案例推理模型【7】。总体来讲现有文献大多属于理论层面的构想并没有深入探讨,还未形成完善的体系。本文在以往研究的基础上,以CBR作为人机交互系统为着眼点,运用Web2.0与文本挖掘技术构建层次化的交互式系统模型,以解决传统CBR忽略“用户”作用的缺陷,并剖析了其在系统中的具体应用与实现,以期拓宽CBR研究的思路与方向。
2基于Web2.0与文本挖掘的CBR系统
2.1CBR中引入Web2.0与文本挖掘的必要性传统CBR系统案例库中的知识往往由专家给出,或者由以往经验得出,案例的更新是“被动地”,即只有当用户有求解需求时才会使用。如此被动的方式往往使案例库知识量少,新案例获取困难,并且由于长期得不到更新,成为静态、过时的案例库,极大影响解决问题的深度与广度。同时,传统CBR系统缺乏用户间交流协作的平台,使用系统的最大目的仅是单纯寻找能解决当前问题的最相关案例,用户无法讨论他们读过的案例,也无法对案例做补充说明,案例库资源得不到充分地增值与利用。从知识管理的角度来讲,对于行家里手的工作经验,由于缺乏可以“主动”贡献的平台而未能留下相对完整的解决方案记忆,其他用户碰到类似问题只能重头再来。伴随着Web2.0的迅速发展与普及应用,在CBR系统中引入Web2.0技术,增加系统与用户交流的接口,用户从被动的接受者变成主动的内容贡献者,为用户提供一个学习平台,可以评论案例,丰富案例库,创建案例更加自主,使案例库内容呈现出开放与协同创作的特点。例如,可以用Wiki平台帮助系统拓宽案例来源,还可通过Blog构建网络社区评论案例并为案例增加注释【8】。引入Web2.0在系统中构建不同的交流圈子,使用户积极参与到系统互动共享中,同时也大大降低了系统解决问题的成本。用户的经验和感知在一定程度上决定了案例的质量,而用户参与度与交互性的加强反过来促进案例质量的提高。研究表明大约80%的组织信息都包含在文本文档中【9】,案例库中同样含有大量的文本信息。文本挖掘技术即尝试从无结构的文本中抽取有用的信息和知识,而CBR系统关注于如何用这些知识来解决问题,两者结合相互补充循序渐进使系统更具灵活性。
2.2基于Web2.0与文本挖掘的CBR系统CBR作为一个社会技术系统,环境、用户等因素同样被考虑进来,激励用户讨论他们读过的案例,分享他们的想法与感受,回答案例中存在的问题。本文提出的基于Web2.0与文本挖掘的CBR系统框架如图1所示。对比传统CBR系统,基于Web2.0与文本挖掘的CBR系统在案例的与更新,检索以及知识的呈现方面有很大的不同与改进。在结构上,系统采用浏览器/服务器模式,减少用户安装和使用系统的复杂度,同时也消除了时间和地点的约束。用户通过浏览器完成案例的、检索与评价而无需了解HTML以及其他复杂软件,还可登录Wiki平台分享经验并通过Wiki页面对案例添加标签,利用浏览器端的RSS阅读器订阅感兴趣的案例并获得及时提醒。用户案例后,并不是直接存入案例库,而是先保存在临时案例库中,再通过临时案例库更新案例库。这样一方面防止案例数据急剧增大以及部分用户恶意添加无效内容,减少数据冗余,另一方面在解决问题时,先检索案例库,无合理匹配后再检索临时案例库,提高了检索效率与有效性。针对案例匹配的相似度算法,国内外学者已有很多详细的研究成果【10-11】,然而引入Web2.0后,系统通过检索界面可利用Ajax技术与用户交互【12】,通过向用户提问与提示的方式缩小检索范围,即在案例检索前由用户选取必须或者优先满足的条件,得到一个初始案例集合,之后再与目标案例逐一进行相似度对比。算法步骤如下:Step1:根据用户需求,确定目标案例C0的属性等;Step2:引导用户选取案例中优先或必须满足的属性或子过程,检索案例库,得到满足约束条件的案例初始集合Ci,其中i为初始集合中案例个数;Step3:利用相似度算法,逐一计算目标案例C0与初始集合Ci中每个案例的相似度S1,S2,S3……Si;Step4:对于给定的阈值λ,若Sm>λ(其中m=1,2,……i),则将Sm对应案例作为最佳匹配反馈给用户。引入Web2.0与文本挖掘技术后,系统将不再仅仅是案例推理系统,而是一个知识管理系统,一个信息共享与协作平台,可以对实时、动态数据进行一定的处理,系统处于动态变化的过程中。
3Web2.0与文本挖掘在CBR系统中的应用与实现
3.1利用标签实现案例知识的标引与组织标签是对内容个人理解基础上的标注,它不需要遵循固定的模式与标准,是一种灵活、自由而有序的信息分类技术,可以从多个维度来揭示信息内容。在传统案例表达方式的基础上,结合Web2.0去中心化,强调用户参与的特征,系统允许用户为其使用的案例设置标签,使用户之间,案例内容之间产生新的链接与联系,如图2所示。标签使得用户间建立社会网络关系,案例间建立概念关系,反过来用户标签的使用习惯和分布特征也形成了标签间潜在的语义联系。具体来讲,第一,对于系统反馈的案例用户可按照自身理解添加标签,每个案例能被添加多个标签。用户拥有自己的系统账户,其中可设置标签列表,包含其曾经添加过的所有标签,选择其中某个标签即可获得用户使用该标签标注的案例链接,标签帮助用户分门别类地管理对自己有用的案例资源。第二,用户可为多个案例添加标签,从而建立了用户与案例间的关联,如图2实线所示。同一案例可被不同的标签标注,同一标签也可标注不同的案例,不同的案例,不同的用户之间便关联起来,如图2虚线所示。系统用户的标签列表可以被其他用户查看,其他用户也可使用相同的标签。对案例添加标签成为一种基于共享的协作,更有价值的案例信息总是被更多用户标注,使用频率越高的标签对案例内容的概括也越准确。第三,用户添加的标签是对案例特征的描述,可作为案例检索时的关键词。在检索过程中,一方面可以给出该标签下的相关案例,另一方面还可以向用户提示与其相关的其他标签【6】。案例、标签、用户间的关系在数据库中可以通过建立二维关系表实现,如图3所示。其中标签表引用用户表的UserID字段作为外键,案例表引用标签表的TagID字段作为外键。除了传统标签外,系统还可引入标签云作为案例内容的额外解释。标签云能使文本案例以快速、可视化的形式展现出来,当系统反馈给用户一个备选案例时,标签云给用户对于案例内容更直观地感知与理解。有时,用户甚至可以直接使用标签云来对比两个相似案例间的不同【13】。标签云可以通过在系统中集成Wordle、TagCloud与Imagechef等工具实现。
3.2利用Wiki构建案例知识协作与共享平台在一定程度上,案例库内存储的案例数量决定了用其进行推理决策的水平与效果,所以系统应提供相应机制允许用户主动丰富案例知识。然而一段经验,一个案例解决方案的形成可能需要多个用户一段时间的实践探索,同时也需要一个平台去积累沉淀,并将这些凌乱的多用户信息系统地显示出来。作为Web2.0应用之一的Wiki是支持社群协作的开放式自组织工具【14】,系统可利用Wiki构建案例知识协作与共享平台。CBR系统中的Wiki平台如图4所示,每个Wiki页面可存放一个完整案例或尚未成熟的案例问题描述、解决方案等组成要素。用户登录平台后,通过创建新Wiki页面来呈现自己过去的实践经验或经历,其他用户可对其观点进行补充并提出不同意见,通过彼此交流协作,实现案例知识融合。Wiki页面的经验片段不断地被反馈、修改与完善,并通过Wiki的版本控制剔除恶意篡改的内容,能够形成完整合理的解决方案时,再由系统管理人员将其引入案例库或对相应案例进行更新。更新后的案例又通过Wiki平台反馈给用户,形成一个知识的动态循环。用户的贡献越多,其拥有的权限就可以越大,系统变得更具有吸引力来激励其作出更多贡献,同时吸引新用户的加入。这样的过程使案例数量不断“主动地”增加,同时促进用户间协作共享并且改善系统的使用体验。用户在编辑页面内容时可添加超链接标记,系统自动寻找已定义的概念并添加相应案例条目间的链接,案例之间或案例内容各组成要素间的关系便可依靠页面间的超链接标记来实现。用户在阅读某个Wiki页面时,通过超链接跳转至其他页面以便了解更多感兴趣的概念,页面的链接目标可以尚未存在,通过点选链接创建这些页面,从而使系统得以增长。Wiki引擎是整个平台的核心,根据用户的请求信息,Wiki引擎从案例库存储模块读取相应数据,它为用户编辑和浏览Wiki页面提供Web界面,将用户标记的页面进行处理,系统内多个内容重复的页面可被汇聚于其中某个页面,相应链接结构也随之改变,从而实现案例间的跳转导航。从案例优化的角度,系统反馈给用户的案例通过Wiki展现出来,用户可对其作出评价,即可在Wi⁃ki上设置案例评价模块,用户对案例的满意度进行打分并且标注合理的标签,给出简短评注【15】。久而久之,用户的评价数据可作为案例匹配检索以及案例库更新优化的判定依据之一。具体来说,可在案例库中为每个案例增加两个字段CandidateTimes和SatisfactionTimes,CandidateTimes表示某案例被推送为候选案例的次数,SatisfactionTimes表示该候选案例最终被成功采纳的次数。两者初始值均为零,当某个案例被成功检索并推送给用户时,Candi⁃dateTimes+1,用户对于系统推送的案例给予评价,若用户满意并可用则SatisfactionTimes+1。久而久之,若某案例的CandidateTimes远大于SatisfactionTimes,说明该案例的实用价值不高并影响案例库质量,应在系统优化阶段予以剔除。
3.3利用RSS实现案例知识的聚合与推送RSS通过支持基于XML的RSSFeed实现信息内容的订阅、聚合和推送,为用户提供个性化的“一站式”知识服务。用户能够订阅案例内容的先决条件是系统提供了RSSFeed,它由一个URL唯一标识,是以XML格式写成的文档,包含标题、摘要或内容选录等。RSSFeed有多种生成方式,对主要用于案例读取而更新较少的案例库,可以采用RSSCre⁃ator等Feed生成软件从案例库中读取现成数据,生成静态XML文件,实现RSS输出;对于案例库与用户交互频繁,案例库更新较快的系统可根据用户的请求编程动态生成XML文件【16】。当用户进行案例检索时,系统在返回候选案例列表的同时自动给出RSSFeedURL。由于本文提出的系统采用B/S模式,所以用户可通过在线RSS阅读器或浏览器自带RSS功能订阅相应URL,阅读器解析XML文档中的每个条目,从而得出新下载的RSSFeed中新增的条目并呈现给用户。CBR中RSS的解析结构如图5所示。系统模块提供完整的案例内容,同时生成相应案例的RSSFeed,内容聚合器读取最新RSS文件汇总并进行索引,之后浏览器端连接到聚合器,用户通过点击标题链接获取详细内容。当案例库中增加相关主题的案例或案例内容发生变更时,系统便可从多案例源搜集整合内容到单个数据流反馈给用户。如此做一方面案例的可见度提高,即使当前没有检索需求,用户仍可以从主动推送的内容中学习到自己感兴趣的知识,节省了用户筛选、获取信息的时间成本,每个用户既是被动的信息获取者,又是主动的信息提炼者【17】;另一方面,由于关注度提高,相应案例的使用频率和影响程度也大大增加。
3.4利用文本挖掘实现案例知识的结构化表示文本挖掘是分析文本数据、抽取文本信息进而发现文本知识的过程,它关注于发现数据中的隐藏信息【18】。对于含有大量文本数据的CBR系统,案例的形式和内容往往由描述者决定,其文本的逻辑、表达和写作格式不尽相同,如果不借助文本挖掘技术获取文本的主要内容特征,后续的案例分析、检索等都难以开展。CBR系统中文本挖掘的应用场景如图6所示。用户通过Wiki平台记录的非结构化案例文本传递给文本挖掘模块做进一步处理。针对差异化的案例描述,通过文本预处理、关系抽取和关联分析等一系列步骤把非结构化、半结构化的数据转化为结构化的案例知识以框架的形式表示出来,并存储到案例库中。从这个角度来讲,文本挖掘使案例库在没有专家知识支持的情况下也可产生。此外可将用户的问题描述转化为结构化的案例检索请求传送到推理模块,找出与问题案例最相似的历史案例反馈给用户。不同案例描述与解决问题的侧重点不同,系统通过聚类对案例库进行分区【5】。聚类的结果构成若干子案例库,每个子案例库被当作一个新的个体案例,在使用过程中可用来反推系统进行聚类的特征依据,便于用户学习案例知识,也使案例库的更新与系统维护变得更细化更快捷。另外,在每个子案例库中可选取几个代表案例,当进行相似度计算时,可先与代表案例进行比较,之后再与相似度较高的代表案例子案例库中的每个案例逐一对比,缩小检索范围,提高检索效率。用户通过Wiki平台贡献的案例往往数量多且内容较冗长,系统管理人员没有时间阅读整篇案例,故可利用自动摘要技术产生案例关键词甚至摘要,抽取的关键词在案例中被高亮显示,帮助管理员快捷有效地决定是否将此案例添加到案例库中,其结果也可作为确定案例索引数据权重的辅助方法【19】。同时,案例中诸如创建者、时间、地点等要素也被抽取出来构建单独的索引。
4结语
案例推理作为迅速发展起来的人工智能子领域,案例库中案例的数量与质量,用户的参与度是决定系统成败的关键因素。本文提出了一个将Web2.0与文本挖掘技术引入CBR的原型系统,一方面使案例库内容可以主动增加与更新,系统动态性增强,另一方面为用户提供了一个沟通协作与学习的平台,提高系统用户的参与度与交互性,使用户体验与系统生命力大大增强。文中详细分析了标签、Wiki、RSS与文本挖掘技术在CBR系统中的应用与实现,同时也为其他知识库系统设计提供了一个指导方向。最终希望通过本文提出的方法引发更多从用户角度对于CBR系统的探讨,另外根据现有成果开发相应的平台与系统,在实践中验证该方案的有效性有待进一步深入研究。
作者:吴彦伟 刘东苏 李慧 单位:西安电子科技大学 经济与管理学院