前言:我们精心挑选了数篇优质大数据时代含义文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。
关键词:大数据 统计特征 情报关键词 关键词提取 方法
1 大数据的含义及特征
大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。
2 相关研究现状及存在的问题
情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。
3 大数据时代基于统计特征的情报关键词提取方法
3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。
3.2 关键词提取方法的构造
3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。
3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。
3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。
3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。
■
图1 TFIDF-SK算法系统流程图
TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。
4 结束语
目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。
参考文献:
[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.
随着现代科学技术的飞速发展,人们对各项技术的需求无论是管理、设计还是其他方面,都有了更高层次的需求,大数据的处理以及对数据系统下信息领域的研究是当前比较热门的话题,尤其是数据的研究分析和信息的服务等方面是人们热切关注的研究话题。在这样的背景下,图书馆的建设要有大数据的思维。本文以大数据时代的图书馆的含义、特征及其建设的方法展开简要论述。
【关键词】大数据时代 数字图书馆
图书馆已经进入由藏书楼、阅览室到使用网线解决人们阅读需求的数字图书馆时代,读者通过PC、手机、平板电脑、电子书阅读器、电视、展示屏等全媒体终端可以获取到当地、省市、国家、甚至全世界的信息资源。
现实中,图书馆数字资源相对于纸质资源的比例不断上升,未来数字资源将成为图书馆的主要资源。数字资源主要分为结构化、半结构化、非结构化数据,去寻找隐藏在数据背后的世界,进而创新图书馆服务模式、对读者服务提供分析与预测将成为大数据时代图书馆的主要工作。
数字图书馆既是完整的知识定位系统,又是大数据时代图书馆发展模式。大数据技术为数字图书馆的发展提供了有利的条件,以数据促进发展,更好的实现图书馆的服务使命,是图书馆服务创新的主要领域。
1 大数据时代的图书馆的含义和特征
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
大数据的意义不在于数据的数量大,而是在于发掘大量数据背后的意义。换而言之,大数据中的海量数据只是原材料,产生价值的关键在于对原材料的“深加工”能力。从技术上看,大数据“深加工”需要强大的数据处理能力,因此往往与云计算密不可分。大数据往往需要依托云计算对海量数据进行云存储和分布式处理。
1.1 大数据时代的图书馆的含义
所谓图书馆的大数据化,是指依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术等技术,从大数据的角度去思考、解决图书馆的馆藏、阅读、咨询、检索、获取、推送、共享、推广等相关问题,实现资源、服务和活动的“增值”,从而实现图书馆社会价值的增值。
1.2 大数据时代的图书馆的特征
大数据时代的图书馆从图书的保管者成为面向服务的信息提供者,从单一纸媒体到全媒体,从本馆收藏到无边界图书馆,从读者到图书馆去到图书馆到读者中来,从按时提供到及时提供,从馆内处理到外包处理,从区域服务到网络化服务。这一系列的转变,将促使图书馆建设理念、方法发生巨大改变。
2 大数据时代的图书馆建设的理念和方法
大数据时代,文献资源已经远远不能够满足人们的需求,视频、图像和网络化信息等多媒体资源不断涌现,对图书馆数字化管理和处理能力提出了更高要求。大数据时代的图书馆建设应该进行以数据驱动的业务流程再造,重新梳理业务各个环节,检查是否适应大数据建设需要。
2.1 树立大数据的资源建设思路
首先,需要摆脱那些传统的管理方法的禁锢,跳出传统图书馆资源建设的框架,学会挖掘新技术,构筑新的资源建设体系,全面的发展新网络体系,提高自身的竞争力。我们知道,互联网主要功能之一也是提供数字资源服务,很多的搜索引擎都可以实现数字图书馆的功能,网上书店的图书购买也非常及时便利。随着经济的发展,时间成本已经逐渐代替金钱成为现代人的主要成本,而在这方面,目前互联网比图书馆更有优势。
图书馆必须利用大数据技术,发挥自己馆藏优势,以读者需求为导向,进行知识再加工,提供知识的精准定位,智能化服务,为读者在知R获取过程中节约时间成本。具体措施,如采编数据加入图书评价,无线Wi-Fi加入微信认证,门禁加入客流统计,建立数据监控及分析系统等。
2.2 发展智能化服务
通过对大数据的处理,可以指导我们有针对性地采购图书和数字资源,将主要成本投入到读者最需要的部分。在实现高效馆藏建设的基础上,进一步推出智能化服务,比如实现网络自动答复、文献自动传递等,成为用户真正的良师益友。同时,系统应该具备智能化功能,比如,可以实现向用户推送具有热度的图书信息,增加对热点信息或事件的重点推荐,强化定题信息的服务等。
智能化服务另一个重要内容就是精准化知识定位。初级阶段是体现为更加智能的OPAC检索。通过加入大数据处理结果,如用户偏好、图书评价及借阅量等,能够改进传统的OPAC,实现更个性化的检索结果。还可以实现对图书、期刊和很多的网络信息进行数据的采集、处理、组织。在对文献信息处理的同时,存储音视频信息,构筑全数据理念,针对网络的信息自动获取数据信息,同时建立具有语义关系的和数据之间联系更加紧密的信息组织框架,比如,可以构建各数字图书馆间的检索网络,实现跨平台或者资源的全面检索。
2.3 提高馆员大数据运用能力
现代化的数字图书馆建设不仅需要数据化的管理技术,同时需要专业的管理人员。要知道,只有相关的管理人员具备了处理大数据的能力、掌握与图书馆的数据化处理相关的技术,熟练的掌握运用数据分析工具和软件,全面的把握网络资源,才能对数据做出客观正确的分析评判,并及时的对图书馆的管理做出正确的调整。
3 总结
现如今,图书馆技术发展已经不再局部,而是跨越到了更广阔的领域,包括数据采集、信息处理、组织架构、知识挖掘等等,大数据化的图书馆的发展将会带给人们难以衡量的价值。
总之,现有的图书馆功能还存在缺陷,大数据时代给图书馆的发展提供了机遇,将会拓展它的数据资源、提升它的管理能力、增强它的功能,我们应该把这些挑战当作机遇,改变固有理念、转变原有的服务、管理模式,重新架构图书馆,在现有基础上,树立全方位服务的理念,利用大数据,使得它在竞争中,发挥出越来越便捷的管理方法。
参考文献
[1]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015.
作者简介
王显斌(1983-),男,2010年毕业于华中师范大学。现为广东省中山市中山图书馆馆员。
随着我国互联网的发展,云计算、物联网已成为耳熟能详的词汇;但是对大多数人只是听过这些词汇但是却不能理解他们的含义。大数据时代已成为一个不可阻挡的趋势,对于图书馆服务行业来说是一种机遇也是一种挑战,图书馆行业的发展应该主动面对这一现状,应该主动面对大数据时代所带来的挑战,积极应对。我们都知道现阶段数据的发展以幂指数方程的趋势发展,大数据时代将成为图书馆行业发展的核心,因为它支撑着图书馆在新时期下的发展。但是面对这一大数字时代带来挑战,应如何积极的面对,成为图书馆发展行业首要考虑的问题。本文主要针对这一问题进行讨论,望能够找到有效的解决方案,促进图书馆行业的发展。
1 什么是大数据时代
1.1 大数据时代的概念
对于很多人来说,大数据时代这一词汇是很熟悉的,但是对于它的含义确是很陌生的。大数据时代其实很难用一个完整的定义,我们通常可解释为:大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。从这大数据时代的解析我们能够看到,大数据时代不是单单的一种技术,但是各种信息的综合体,是一个巨型的资料库。
最早提出“大数据”这一词汇的是一个全球知名咨询公司麦肯锡,他表示到:数据已渗透到各个领域,成为促进社会发展的重要因素。面对这样的形式,人们加以合理的利用海量的数据资源,将会把世界的发展推向一个新纪元。
1.2 大数据时代的特点
我们由大数据的概念很容易的了解到,它是一个多种数据库的聚合体。有些人就根据大数据的概念将其特点归结为一下三点:量大、多样、实时,有人直接将这三点简单的成为3V特征(三个特征的首字母都是V开头,简称为3V)。但是我认为大数据时代的特点除了这三点外还其他的,诸如数据价值密度高、处理数据快的特点。因此大数据时代特点我们可以总结为:①数据量大,也就是说数据的体量大,对于体量的衡量我们已经不能用传统的衡量方式了。②种类的多样性,大数据库的种类包含众多的行业,多个领域,而且具有文本、图像、影视等多种样式,这一特点尤其适用于图书馆的发展;③更新速度快,也就是我们说的实时性,大数据的更新每时每刻都在发生,保证了数据的实时性。④数据的价值密度高,涉及到传输、决策、感知、控制开放式循环的大数据,大量的不相关信息对未来发展模式和趋势的可预测性分析起着至关重要的作用。⑤处理速度快,数据持续到达,数据分析要求实时处理而非批量式分析。
2 大数据时代下图书馆面临的机遇与挑战
我们由大数据时代的特点可知,随着大数据时代的发展,处理速度和更新速度使得其利用价值在不断地上升,在大时代数据对图书馆行业的发展有着很大的影响。
2.1 大数据时代下图书馆面临着挑战
在新的时代下要求图书馆服务行业要对其图书馆内部资料有一个充分的了解,而且这种了解要紧紧跟随着图书馆内部资料的更新不断改变。传统的图书馆服务行业的特点就是人工管理占很大一部分,数据更新速度差,管理效率低下,比较浪费时间;由于人们对知识的渴望,图书馆的作用越来越大;图书馆场地的局限也是一个重要的问题;大数据时代的高效性、实时性是传统的图书馆服务行业所不能比拟的,如何在大数据时代下更好的发展图书馆服务行业成为一个重要的问题。
2.2 大数据时代下图书馆面临着机遇
其实在大数据时代下图书馆的发展,机遇与挑战而言,机遇所占的比例不少于挑战的比例。大数据时代下数据形式有多样化、信息更新的实时性、快速的处理速度,大数据这些特点都将会促进者图书馆服务行业的发展,未来会成为图书馆服务行业发展的核心部分。
3 图书馆行业应该如何应对大数据时代下的影响
面对大数据时代下的机遇与挑战,图书馆服务不能坐以待毙,应该积极的面对挑战,勇于创先,实现机遇利用率的最大化。
3.1 创新图书馆管理方式,提高图书馆的智能化管理水平
传统图书馆管理模式已不能适应快速发展的社会,对于图书馆的管理,我们应该做到与时俱进。创新图书馆的管理方式是适应社会发展的必然趋势。我们可以充分利用大数据时代量大、快速、实时的特点,提高图书馆的智能化管理水平。数字化时代,文献资源等进行数字化、语义化处理是图书馆进行数据处理的主要模式,在此基础上借助网络服务,实现数据共享,从而最大程度满足用户需要。
大数据时代的到来可以快速的提升图书馆的服务水平,大数据可以以最快的速度更新图书馆的资源,并对资源进行分类,让人们根据自己的喜好可以快速的筛选出所需要的种类,节约借书人时间的同时也减少了图书馆行业的压力。
3.2 高度关注图书馆用户数据和信息
为了迎接大数据时代下挑战,要提升图书馆服务质量;我们首先要注重的就是用户的需求。我们都知道大数据内的资料很多,但不一定都是客户们需要的资源。因此我们要做到尽可能的满足用户们的需求。
做好用户们的需求我们就要做好以下几点:①根据用户们的网页访问数量,统计、整理出哪些资源是比较受欢迎的,对其M行大量的收集。②了解用户的爱好和价值取向,根据其不同的喜好可以向不同的人群进行资料的推荐。
4 总结
在大数据时代下,虽然图书馆服务行业受到了很多的挑战,但是同时也遇到了很多的机遇,我们要相信,随着图书馆服务行业的不断发展和创新,一定能跟随时代的潮流,为我们提供更优质的服务。
参考文献
[1]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆.2013(01)