美章网 资料文库 地方网络资源典藏建设与应用范文

地方网络资源典藏建设与应用范文

本站小编为你精心准备了地方网络资源典藏建设与应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

地方网络资源典藏建设与应用

文博系统的图书馆的职责之一是保存和典藏文本资源,它提供了一个供公众了解文化、历史、艺术、科学等知识的窗口。随着互联网的发展,每天在互联网上产生、传播的信息量可以用海量来形容,比如:网页、博客、新闻、日志、论坛等。这些产生的互联网信息中包含了大量有价值的信息,而这些有研究价值的信息并非会通过文本资料的形式保存到图书馆的典藏资源库中。从收集、典藏有价值的信息的角度出发,开发和利用好网络资源信息,是完善好图书馆典藏职能的一条重要的途径,其与纸质文本典藏一样具有重要的价值,今后图书馆典藏工作的发展方向将是纸质资源和数字资源共同发展,在数字图书馆的趋势下,数字典藏的作用越发重要。在互联网时代,开展、建设好网络资源典藏系统具有现实意义和实用价值。

1网络资源典藏的概念

数字资源是文献资料的重要表现形式之一,是利用计算机、通信技术与多媒体技术相互融合而形成的以数字格式获取、处理、的信息资源总和。商业性数据库、机构自建的数据库、政府公开信息、个人信息等都属于数字资源。数字资源与印刷型文献相比类型更为丰富。从数据的组织形式上看,有数据库、电子期刊、电子图书、网页、多媒体资料等类型。从资源提供者来看,可分为:商业化的数字资源和非商业化的数字资源。前者包括数据库商、出版商和其他机构以商业化方式提供的各种电子资源,如:e-LIBRARY、ProQuest、CA、剑桥期刊、中国期刊网、知网、万方、维普期刊、方正Apabi等数据库。公共图书馆需要购买商业数据库后才能向读者开放并有区域局限,但一般是在本馆内。当然个人也可以通过购买服务的方式来获取知识服务。以上数据库中的数字资源内容丰富、数据量大,是目前公共图书馆数字馆藏资源的重要组成部分,在全国各个图书馆基本都有购买和收录。除了购买的数字资源外,各地图书馆机构会自建本地区特色资源库、开放存取资源、地方文献等,这些资源可以由本地图书馆自建,也可以委托专业机构进行搜集、整理、加工。本文重点讨论的是自建类型的资源,从互联网上搜索、整理、公开的资源,经加工后再。网络资源分布在互联网的各个角落,通过资源抓取器(网络蜘蛛)检索目标地址,并将抓取的资源保存到本地数据库中,赋予标题、关键字、内容持久化保存,并依照特定的组织规则和方式,对数字资源进行特征化,以便对网络典藏资源检索和利用。

2网络资源典藏实现原理简介

搜索引擎由搜索器、索引器、检索器和用户接口4部分。机器人程序spider以一定的策略(事先配置好策略)自动进行信息搜索,然后由索引器对信息进行理解、处理,从中抽取索引项,建立索引库,再由检索器根据用户的查询在索引库中快速检索文档,进行相关度评价,将要输出的结果排序,并按用户的查询需求合理反馈信息,由用户接口来接纳用户查询,显示查询结果,提供个性化查询项。按照信息搜集的方法和服务提供方式的不同,搜索引擎可以分为:全文搜索引擎、目录索引、元搜索引擎。软件系统由应用服务器、蜘蛛、智能、转存器、系统、规则编辑器、图片Web服务器7个子系统组成。此系统是一个分布部署的分布式系统,各个子系统可以运行在多台机器上,也可以运行在一台机器上。

2.1应用服务器它是整个系统的调度器,在智能和转存器之间调度数据处理任务,主要是接受蜘蛛抓取来的数据包任务,再将各数据处理任务分配给智能和转存器进行处理。

2.2蜘蛛spider蜘蛛主要是按照用户设定的站点和抓取策略和参数抓取网络数据,并形成多个的数据包(数据表)发送给应用服务器。

2.3智能它主要完成对抓取数据按用户预先建好的导航进行分类,可以按站点或者频道分类,也可以按关键词分类,也可以用样本训练好的模型分类。

2.4转存器它主要负责将智能处理完的数据归档到系统的后台数据库中,并对数据新增加的数据进行增量索引,对于图片、doc文档等数据存放到指定的数据库中或者指定的目录下。若使用的是联合表方式管理数据则对日数据和月数据作定期合并等管理。

2.5系统系统是将采集入库的数据在web上,用户可以通过web形式就可以检索自己所需要的内容。系统采用了3种方式的系统,即门户式、数据库式、搜索引擎式。另外,可对系统采集的图片进行并按标题进行检索。

2.6规则编辑器它是一个工具,用来建立和管理对数据进行过滤的各种规则。可以是关键词规则或者频道规则(以后的版本可以提供分类模型的训练功能)。

2.7图片Web服务器它是一个可选工具,当将图片数据存放到数据库中时则需要启动此工具用来用图片服务器,它将从库中读取图片数据并以http的方式发送给各请求端。

2.8数据导入(导出)工具这是一个辅助工具,对于一些保密性较高和安全性要求较高的用户,一般采集系统处在与Inter-net连接的网络上,而系统需要将数据到内网(它是与外网绝对隔离),在这种情况下可以用此工具定期将外网的数据导入到内网的库中。

3建设地方网络典藏资源的意义与需求

建设地方网络资源典藏系统服务于当地的经济建设和社会管理。在社会管理电子化的背景下,尤其是电子政务的发展,当地的政府机关、事业单位等职能部门将大量的信息以电子的形式在其网站上,供用户获取和查看。由于信息分布于各个机构网站上,并随着时间的推移,最新的信息会将原有的信息进行覆盖和刷新,当有查询产生时间较早的信息的需求时,往往会出现查询困难或获取失败的情况。在此情形下,图书馆作为一个信息的典藏机构,适时的开展地方网络资源典藏工作,将网络上产生的信息进行收集和处理,形成一套整体的数据库资源,供用户查询,其具有积极的社会效益。建设地方网络资源,一方面履行数据资源典藏职能,另一方面提供统一的地方资讯整合平台。典藏资源是文献加工的重要环节,其直接影响到文献的质量。在数字化图书馆的背景下,典藏资源也发生了巨大的变化,用数字化的载体来实现典藏工作,形成“实体典藏”和“虚拟典藏”的新格局,同时馆藏结构也发生了巨大的变化。随着信息化的发展,现在一个地区内一定时期内产生了大量的数字格式的信息资源,其中有部分具备研究和典藏价值的信息分布在不同机构的网络之上。使用特定的软件系统,按一定的规则采集网络上的图片、WORD文档、PPT、PDF等各种形式的文档,形成统一的分类资源库。建立地方网络典藏资源就是为形成本区域内统一的资源库,为科研工作者、学生、教师、企事业单位等研究本地区的社会管理、经济发展、科技水平等提供资源支持。

系统整体有两部分组成:硬件和软件。在本文中讨论的是软件部分,经过需求分析,实现的功能设计有:管理模块、搜索模块、信息模块。①信息模块按照大类分为:新闻、政务、文化、经济、教育、医疗、法律、农业、交通;②搜索模块提供的站内条件定制搜索,并提供树形结构筛选;③管理模块提供给管理人员配置使用,包括用户管理、网络搜索配置、数据库配置、配置等。整个系统按照3层模式(数据层、逻辑层、应用层)来设计。

4地方网络典藏资源建设的应用与实践

网络信息资源采集系统是一个集网络数据采集、分析、存储、管理及检索等功能于一体的网络信息资源整合系统。建设地方网络典藏资源的目的就是采集、处理、储存、应用本地区内有价值的数字资源。按照平台设计的需求,其采集的地方网络资源可分为以下几类:新闻、政务、文化、经济、教育、医疗、法律、农业、交通。

4.1典藏资源系统简介本系统是一具有智能文本分类功能的个性化搜索引擎的系统,它包含了数据采集、数据处理、海量数据的管理、及全文检索等功能,因而适合的应用有如下几个。

4.1.1新闻采集。可以从新闻门户上采集新闻并对网页进行处理,提取正文后在内网。

4.1.2网络信息监控。可以自动监控网络上用户关心的信息,如可实现对网上非法信息的监控,及时发现,防止这些信息的传播。

4.1.3行业搜索引擎。本系统具备了搜索引擎所具有的所有功能,可以用来组建各种行业搜索引擎系统。

4.1.4站内搜索。“蜘蛛”可以抓取本地的WEB数据,因而可以组建一个站点内部的站内搜索。

4.1.5情报搜集和专题信息采集。可以完成用户对特定信息的采集和过滤功能。

4.2典藏资源系统流程本系统是一个分布式系统,各子系统之间相互协调完成对抓取数据的处理,系统运行后的处理流程如下:①“蜘蛛”抓取数据,抓取后存储为一定大小的K-base数据表,每个数据表到一定的量后就发送给应用服务器,由它调度给其他子系统去处理;②应用服务器接受到蜘蛛发来的数据表处理任务后,先将一些表分配给智能去分析处理;③智能分析处理完后将这个数据表处理任务再反馈给应用服务器,应用服务器再将此任务分配给一个转存器进行处理。智能主要是根据规则对每一条网页数据打上一个分类号,再发送给应用服务器;④转存器接受到任务后,将此数据包导入到后到存储总库中去,并对数据进行增量索引。如果是联合表则要存入相应的子表,并在一定的时间段去合并子表操作;⑤数据存储到后台总库中后用户就可以通过前台的Web检索页面进行浏览和检索。

4.3地方网络资源典藏系统应用地方网络资源典藏系统按照需求规划实现,在产品实施后投入使用。系统将采集并处理后的信息以WEB的形式展现给用户使用。管理员功能:系统配置、用户管理;用户功能:站内检索、定制查询。系统采用B/S结构,用户不需要安装客户端即可使用,UI设计简约,栏目设置合理、操作便捷。用户选择资源大类查看详细清单,最新信息滚动显示。九个栏目分布在网页上方主体部位,下方部分为新闻部分和最新更新内容。在大量的信息中用户无法迅速的找到符合要求的条目,因此系统支持站内数据检索。选择“数据检索”,站内检索提供定制条件查询,查询条件输入来源、时间、性质,并可以进行扩展条件查询,同时再选择分类。选定查询条件后,系统会返回库中符合要求的条目。目前共有9大信息板块,分别从目标网站获取对应的信息,信息覆盖面大。该系统从实施后的效果看,可以作为一个重要的地方网络资源典藏系统。

5结束语

地方网络资源典藏系统最大的优势是建立一套统一的信息整合系统,它将本地区内原先分布于各处的信息汇总并处理,一方面建立统一的信息汇集平台方便用户的查找,另一方面建立了一资源典藏系统,使得数字信息资源得以持久化保存,履行典藏的职能。实施地方网络资源典藏系统可以说是有巨大的社会效益,这方面的工作仍需持续完善。目前,系统虽然完成了初期的需求,但还处于相对初级阶段,还有较多不完善需要提高的地方。不仅是实现地方网络资源的典藏,还需要依托典藏资源进行二次开发和利用。随着计算机技术的发展,它将朝着更高的智能化水平、更多的信息量发展,如在大数据量的背景下,能够智能甄选、识别、处理信息,甚至是提供机器人参考咨询,用户输入背景信息后,机器人从数据库中提取有价值的并经处理的咨询建议。在技术的推动下,行业机构应用最新的发展理念来完善网络资源典藏系统,将会对数字典藏产生深远的影响。

作者:祝先运 单位:南京图书馆