美章网 资料文库 数据挖掘应用与图书馆门户建设探析范文

数据挖掘应用与图书馆门户建设探析范文

本站小编为你精心准备了数据挖掘应用与图书馆门户建设探析参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

数据挖掘应用与图书馆门户建设探析

摘要:基于web的数据挖掘技术能很好地满足读者个性化需求,通过对web日志文件的挖掘,利用路径分析技术、关联规则技术、序列模式技术、聚类分析技术、协同过滤技术等,了解读者行为习惯、个性化需求以及潜在的信息需求,从而满足图书馆网站人性化、个性化的设计需要,打造图书馆智慧门户,彰显图书馆以人为本的服务宗旨。

关键词:图书馆网站;Web数据挖掘;网站设计

图书馆门户网站是图书馆提供信息资源服务的重要途径之一,随着互联网大数据、云计算等现代化技术的深入应用,智慧门户的建设显得尤为重要。图书馆管理者在面对日新月异的技术和有着个性化需求的读者时,应本着人性化的宗旨,综合资源类型、服务方式、读者需求和用户体验等各方面收集而来的数据,运用数据挖掘技术,掌握读者真实的需求和体验感,科学、合理地设计图书馆门户网站,提供友善的界面,便捷、智慧的服务,从而进一步提高读者满意度。

1图书馆门户网站建设现状

随着技术的进步以及读者阅读习惯的改变,信息资源的数字化越来越普遍,图书馆利用门户网站,将所收集的资源进行分类、编排、整理后呈现给读者,并在网站上集成图书馆提供的服务,如馆藏查询、预约登记、图书荐购、资源下载等,给读者提供了极大的便利。目前,图书馆网站设计大多采用框架式,一级目录按照资源或服务的类型进行分类,然后在一级目录下增加二级及三级子目录(如图1所示)。无论是采用垂直分布还是水平分布,都能很好地体现图书馆提供的各式各样服务和资源,条理清晰,一目了然。但其缺点也非常显著,一是面对不同的读者群体,看到的都是同样的页面,缺乏个性化,比较死板;二是对资源与服务的划分与分布,读者与网站设计者的理解不可能完全一致,有可能导致读者在图书馆网站迷航。

2图书馆智慧门户设计的原则

2.1人性化原则

人性化原则体现在几个方面,首先是页面的友好性。页面设计的颜色、字体是否让用户感觉突兀,页面显示的流畅性,用户访问操作的便捷性,出错窗口的应对原则,避免空链接等,这些方面都是衡量一个页面是否友好的重要指标。其次是栏目编排的科学性。栏目的分类是否科学、准确,便于用户理解并准确定位到要找的地址。最后是及时响应。网站的及时响应极大地影响用户的体验感,打开一个页面,需要的时间是2s、1s还是0.1s都直接影响到用户对网站的体验,所以不仅要在网页本身上下功夫,还需在网站架构、服务器配置、网络设置等方面合理安排。

2.2个性化原则

图书馆网站的个性化,是对人性化的提升,根据不同读者群体的需求,如教师、学生、职工等,有针对性地进行设计,减少特定群体里不需要的内容,将这个群体经常使用的内容显著标注或靠前排序,提高用户的使用效率。利用数据挖掘手段,不仅可根据群体来进行划分,还可根据不同读者的访问记录和行为习惯,增加“猜你喜欢的”栏目。

2.3覆盖性原则

覆盖性原则即网站的内容是否覆盖了图书馆所提供的信息资源和全部服务。能通过互联网实现的服务要在网站上全部体现,一应俱全,不能在互联网实现的服务也应做相应的介绍和说明。在全部覆盖的前提下,还应突出重点和特色服务,提高读者访问效率。

2.4安全性原则

安全性主要牵涉到网络安全方面,既要保证网站的稳定运行,更要保障用户的隐私数据,因不是本文重点,这里不一一赘述。

3Web数据挖掘技术在图书馆门户建设中的应用

Web数据挖掘是数据挖掘技术的一种,但由于Web数据挖掘基于Web平台,有其自身的特殊性,与传统的数据挖掘不同,其对象是半结构化或者无结构化为中心的海量的、异构的、分布式的Web文档和Web服务器日志[1-3]。利用web数据挖掘技术,分析读者行为习惯,设计更为人性、个性化的网站,提高用户的使用效率,提高读者满意度。Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、聚类分析技术、协同过滤技术等。

3.1路径分析技术

路径分析技术是Web所特有的数据挖掘技术,它是一种基于网站结构分析的数据挖掘技术。由于图书馆网站内容丰富,几乎囊括图书馆所有的信息资源和各项服务,读者访问网站后,想要直接获取到某一特定资源,往往不太可能,总是要经过导航分类或相关链接,几经跳转后方能获得所需资源,而这个过程中读者的点击行为事件和访问路径就记录在日志文件中。路径分析技术则是通过对这些访问路径的数据挖掘,分析最常访问的路径信息,决策者可以根据阶段需求和长期规划,要求网站设计者修改或缩短路径距离,改进站点设计,方便读者浏览,从而改善网站结构[4]。如在图书馆网站设计中,读者需要访问“CNKI学位论文资源数据库”,通常登录图书馆网站后,根据导航栏分布选择“数据库资源”,再根据数据库下分“中文数据库”和“外文数据库”选择“中文数据库”后,在打开的页面列表上选择“CNKI学位论文资源数据库”,在日志文件里则记录了读者的访问路径:“数据库资源”→“中文数据库”→“CNKI学位论文资源数据库”。通过路径分析技术,分析这个路径是最常访问路径,为方便读者浏览,提高读者使用效率,则可以优化路径,在“数据库资源”下方直接增加常用数据库,读者在看到“数据库资源”时就可以直接访问“CNKI学位论文资源数据库”,从之前的3步直接缩短为1步。

3.2关联规则技术

图书馆网站上有各类数据库或OPAC等应用系统,根据读者的文献需求,这些系统定期会产生海量的搜索数据或相关表单,使用关联规则方法对这一系列的数据、表单进行研究、分析与挖掘,发现数据、表单之间的相互关联,最常使用APRIOR算法,挖掘出最频繁访问项集,利用关联规则设计用户访问模式,可进一步实现对读者的个性化信息服务[5]。笔者将本单位图书馆网站2016年1月至12月份数据库资源的访问记录采用关联规则挖掘算法进行挖掘,发现访问培训视频数据库8959次记录,访问考试数据库11008次记录,其中有3385次既访问了培训视频数据库,又访问了考试数据库,分别占各自数据库访问的37.8%和30.8%。利用关联规则,确定了这两个数据库之间的关联,将原先网页中分布在不同模块的两个数据库调整在一起,就像“尿布与啤酒”的故事一样,经过一年的运行,统计得出访问培训视频数据库10682次记录(数据统计为2017年1月至11月),访问考试数据库12029次记录,其中有8215次既访问了培训视频数据库,又访问了考试数据库,分别占各自数据库访问的76.9%和68.3%。(如图2所示)不仅数据库的使用率得到了提升,更利用数据挖掘发现了读者潜在的需求。

3.3序列模式技术序列模式是指用户访问

Web时,根据自身的需求、兴趣和习惯访问Web而产生的一系列用户事务数据,每条记录包含了用户的访问时间、行为以及用户的ID,将事务行为之间的关联性和时间结合起来,分析用户行为间的联系,预测用户的访问模式和兴趣需求,快速做出决策方案,更改页面内容,有针对性地推广信息,增强网站的服务性能[4]。读者登录图书馆主页“我的图书馆”模块进行书目查询,获取所需文献资源无非有两种方法,一是利用关键词进行搜索,二是根据书目分类进行查看。结合这两种方法产生的事务文件,分析“关键词”与“关键词”“分类”与“分类”“关键词”与“分类”之间的联系,以及分析读者多次访问时间之间的联系,利用序列模式技术挖掘,得到某一特定读者,在某一个时间段的文献需求,从而调整网站功能,进行“定点推送”或“猜你喜欢”,提供优质的个性化服务,提高图书馆的服务质量。

3.4聚类分析技术

聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。聚类分析技术是指根据访问用户的个人信息或者用户共同的访问模式,将访问数据进行分类整理,挖掘出用户某些共同的兴趣爱好、信息需求等特征。常用的聚类方法有:K-means聚类分析、分层聚类分析、基于模型的聚类方法、基于密度的聚类方法和基于网络的聚类方法等[6]。在图书馆网站的应用中,通过Web数据挖掘技术分析用户最近浏览过的网页内容,利用聚类分析发现用户的兴趣模式(或者假定用户的兴趣爱好类别,经过训练得到用户偏好模式),来判断用户的后续行为模式,从而给用户一个便捷的分类导向,便于用户找到自己想要的内容。

3.5协同过滤技术

协同过滤技术简单来说就是利用兴趣相投、拥有共同经验的群体喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的,进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣的信息记录也相当重要。在日常生活中,我们打算购买某一商品时,经常会询问周围的朋友或同事,有没有相关的推荐,得到相关评价后,决定自己是否购买,这就是一个最浅显的协同过滤技术。在用户访问图书馆网站,想获取相关的资源或服务时,也常常想了解与其有相同需求的读者的访问记录以及评价,通过这些记录和评价,便于对资源进行判断与定位[7]。在图书馆网站建设中,设计者可以利用协同过滤技术建立“推荐系统”,利用集体智慧的典型方法,将具有相似的兴趣爱好、拥有共同经验群体的喜好,向系统使用者推荐可能感兴趣的相关资源和服务,或者将用户兴趣模式和高搜索率的内容放在一起以吸引用户的注意,从而提高图书馆的服务质量和资源利用率。Web数据挖掘技术种类颇多,在实际应用中,通常将几种技术相互结合融通,对Web日志和访问内容进行挖掘得出结论后,对网站进行内容和结构调整。

4结语

随着数据挖掘算法的不断发展和成熟,Web数据挖掘技术应用也越来越广泛,通过Web数据挖掘技术从图书馆网站获取读者数据信息,构建不同维度的数据库,分析读者的行为和偏好,动态设计图书馆门户,及时调整网站结构和内容,对提高图书馆网站的效用和读者满意度,具有实际应用价值。

参考文献:

[2]BingLiu.Web数据挖掘(第一版)[M].俞勇,薛贵荣,韩定一,译.北京:清华大学出版社,2009:1-10.

[3]胡秀.基于Web的数据挖掘技术研究[J].软件导刊,2015(1):149-150.

[4]高玉娟.Web数据挖掘研究综述[J].工业控制计算机,2016,29(1):113-115.

[5]杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64.

[6]王媛.基于IGGN算法的SNS用户群体特征分析[D].天津:天津财经大学,2011.

[7]李俊丽.一种改进的概率关系模型及其概率查询问题的研究[D].山西:太原科技大学,2011.

作者:窦剑 单位:泰州职业技术学院