本站小编为你精心准备了大数据在情报学研究的影响参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
[摘要]在大数据环境下,情报学正面临一个全新的发展机遇。文章从研究过程出发考察大数据对情报学研究的影响,主要包括:拓展了情报学的问题域,创新了新的研究方法,开拓了新的数据来源和数据获取方式、扩大了数据规模,提供了新的研究工具,增加了研究人员的参与度和学科影响力。深刻洞察情报学研究在大数据环境中的变化,找到有价值的研究问题,才能不断产出有影响力的成果,不断促进学科发展,扩大情报学的影响力和渗透力。
[关键词]大数据情报学研究;研究过程;研究创新;学科发展
大数据作为一种新的理念和技术,对现代生活产生了重要影响,同时它也作为一种科学图景,为不同领域学科发展提供了新的契机。在大数据环境下,社会信息化和智能化程度有了前所未有的提升,技术环境也发生了革命性变化。目前出现了许多与情报学、信息管理学发展密切相关的技术,包括:作为现实世界的转换路径和介质的数字化技术、拥有取之不尽数据来源的互联网/物联网技术、创建即时可用计算环境的云计算技术、形成移动泛在信息行为的智能手机和终端技术、以及无孔不入的时空分析GIS技术[1]。这些技术全方位多角度渗透到人文社会科学各个领域和各个方面,给人文社会科学带来了活力,引起了这些学科研究范式的深刻变革。情报学作为专门研究数据、信息和知识组织与利用的学科,其影响更是首当其冲,大数据不仅极大丰富了情报学研究内容,也给情报学理论和方法带来了深刻影响,为情报学满足用户信息服务需求提供了新模式,给情报学发展带来了新的机遇。我们可以从不同的视角和侧面研究大数据对情报学的影响,但就学科发展和研究而言,考察大数据对情报学研究过程的各个要素即研究问题、研究方法、研究数据、研究工具的影响,是最根本的、最能揭示大数据及当代信息技术对情报学研究影响的实质和方式。
1拓展了情报学的问题
域问题是一个学科研究的入口,无论学科发展还是研究实践,问题都是其首要环节和基础要素。有没有丰富的问题,这些问题在所处的介质、场景、时间和空间上有没有层次性、延展性是学科创新和突破的关键。因为学科发展就是通过不断提出问题、解决问题,揭示事物的本质和规律。过去我们常常听到一些博士生和硕士生抱怨找不到恰当的论文题目,不知道研究什么问题。这可能是本身对问题的把握不足,也可能是在传统小数据环境下的确找不到更多的问题进行研究。在上世纪90年代,人们曾提出大情报观,试图将自身的触角延伸到社会经济的各个方面和各个领域,也尝试借助信息资源管理、知识管理来拓展情报学研究的空间,但学科所处的传统介质、空间和场景都非常有限,而从这些介质、空间和场景中提炼出来的研究问题也很有限。在大数据环境下,情报学所处的介质、空间和场景发生了根本变化。情报学传统的介质是纸质文献,主要以论文、专利、报纸、科技报告、政策文本等为载体[2]。这种介质不仅存储不便,加工处理和传递交流也很困难。数字化将文字、图像、声音等一切对象都转化为0和1,存储在计算机中,进一步上传至互联网,建立了人与自然的“数字体系”关联。在情报学领域,数字介质带来的直接变化是存储介质替代了传统档案,而后又出现了数字化书籍、数字报刊杂志、数字图书馆等等。数字化手段使得人类或人类思想文本转变成为巨大的数字库[3]。情报学诞生于纸质信息环境,因此对情报学领域而言,数字介质最直接的效益便是解决了人类知识需求与供给之间的阻碍。除了传统的文献、文本资源移植到数字介质中,在数字介质中产生的一些原生数字资源也进一步拓展了情报学研究资源,并与之融为一体,例如图像、音频、视频、网页等等都成了情报学领域的研究资源。同时,经过数字化转化,社会、经济和文化得以在无边的数字空间中飞速发展,人类的信息过程也发生了全方位、全链条、全要素的变化。在数字介质中,信息链演化加速,范围拓展,提出了许多过去没有的问题。在传统纸质介质背景下,情报学的研究场景主要是图书馆、文献中心和情报中心的工作流程,即围绕文献生成、获取、加工、存储、检索、传递和利用展开。例如,典型的工作流程一般是首先由出版商生产纸质文献,通过一次分发,被图书馆或文献中心采集,经过加工整理成为目录、索引、文摘和题录等二次文献,再通过二次分发,被信息服务中心采集,向用户提供服务[4]。在新场景中,情报学工作流程完全被颠覆,一次分发和二次分发没有明显的界限,信息生产者、加工者和用户的角色并不固定。
互联网改变了传统信息传播模式,出现了以用户为中心来组织、传播信息的场景;物联网改变了传统信息传播主体,信息的发送者和接受者不是人而是物;机构知识库改变了信息存在和利用的形式,作为一种群体知识成果进入到人们视野中。随着科技的发展和应用深入,还会出现不断突破以往固定情报工作流程的新场景,并涌现出新问题,不断促进情报研究的发展。在传统介质下,情报学所处的空间是图书馆、文献中心、情报中心为主体的物理空间,传统的情报工作流程在有限的物理空间中形成了固定模式,各个环节中的问题也基本确定,没有拓展的余地。在当代大数据环境下,情报学面对的空间是互联网、传感网和通信网三位一体的虚拟空间,在这个新空间中,情报工作模式发生了革命性变化。过去只能在物理空间中进行的信息加工组织传递转移到了虚拟空间,或者在物理空间和虚拟空间中交叉进行。社会信息形态和人类信息活动在新空间中发生了巨大变化,其次是新空间提供了一个全方位研究和计算的新平台。利用虚拟空间,情报学研究工作的绩效得到空前彰显。传统的情报学研究方法、工具和手段能够在新的空间中得到运用和拓展。这些突破传统框架的新介质、新空间和新场景的问题都是跨学科、跨领域的研究问题。诸如新出现的社交媒体、舆情传播、商品评论、信息行为、多渠道信息替代、大规模文本统计等,很难确定属于哪个学科,应该由谁去研究?虚拟空间中的犯罪问题应该由哪些学科去主导?因为这些新出现的研究问题往往更为综合,涉及要素更为多元,不仅仅来自情报学领域,还需要运用很多其他学科的知识进行交叉分析,因此跨学科、跨领域的合作非常关键。在新的技术环境下,情报学研究需要汲取其他领域专业知识,同时也可以为其他专业提供新的思维和引导;情报学研究人员要到其他领域去找问题,也欢迎其他领域的专家来到情报学领域。同时,这些新问题的解决对情报学变革有着重要的现实意义,不管是能够产生好的成果,或是形成巨大的挑战,都是促进情报学研究进步的一个重要机遇。
2创新了情报学的研究方法
研究方法是解决问题的钥匙,提炼出好的科学问题,还需要有针对性很强的研究方法。研究方法对任何一个学科都十分重要,甚至可以视为一个学科是否成熟的标志。美国的LIBRARYTRENDS杂志曾经总结了图书馆学、情报学在过去相当长一段时间里常使用的几种研究方法,包括实证研究、案例研究、系统性综述、纵向研究、生活史。另外,扎根理论、引文分析与计量也是图书情报学界常常使用的方法。这些方法今天仍在情报学研究中发挥着重要作用,但也显现出较大的局限性。最大的局限在于数据来源的有限性和主观性,表面看来所有数据和资料都源于对被调查对象针对访谈或问卷的回答,是客观准确的一手数据,事实上,被调查对象在回答问题时,带有很大的随意性和主观性,有时也存在对问题理解的歧义。因此研究结论的正确性将大打折扣。依赖研究人员个人收集、阅读文献的系统性综述纵向研究其实也带有很大的主观性和随意性,难以保证结论客观准确。随着情报学所处的介质、空间、场景的变化,问题域不断拓展,情报学研究工作的复杂性也随之提升,传统研究方法的局限性越来越大,由此引入和产生了许多新的研究方法,例如:社会网络分析、复杂网络分析、大数据分析、认知计算、社会感知计算、平行计算、数据挖掘、机器学习等等。为情报学利用实时数据、大规模数据和客观数据开展研究提供了条件。结合对过去与现在情报学研究方法的对比,可以认为大数据环境下,情报学研究方法呈现出从介入性方式到非介入性方式、从部分探究到整体研究、从人工分析为主到计算机分析为主的变化趋势。面对当前大数据带来的汹涌而至的信息潮流,情报学研究涉及的问题越来越广,吸引了不同学科领域的一些学者关注情报学研究,所运用的方法也不断推陈出新,为情报学科的发展注入了新的活力。例如,统计物理学家采用统计物理模型和复杂网络方法研究引文网络,建立了更加抽象、但又能够刻画真实网络特征的模型;计算机科学家借用强大的计算能力和模型研究网络信息分布及传播规律,采用计算实验和平行系统研究情报工作模式,采用大规模电子踪迹和用户生成内容研究信息行为。这些研究不仅大大丰富了情报学研究,还带来了情报学研究范式的革命。这些研究方法所呈现出来的特点,符合大数据时代的特征,代表着情报学研究方法的拓展和进步。其实,研究方法并没有好坏之分,新的研究方法的出现代表着突破传统研究方法的局限,说明可以解决过去无法解决的问题,达到曾经无法企及的目标,这对科学研究意义重大。
3增加了数据获取的渠道、方式和规模
情报学研究离不开数据支持,同时情报学也是与数据十分密切的学科,许多著名的数据库或网站都是情报学家的杰作,如我们熟知的科学引文数据库,不仅仅用于科研服务,还被广泛用于科学评价、人才评价和研究机构评价等工作;又如,ResearchGtea、Med-linePusl等平台不仅仅提供信息服务,而且提供了丰富的数据。与小数据环境相比较,情报学在数据获取渠道、方式和规模上都发生了巨大变化,对情报学研究也产生了巨大影响。(1)数据获取渠道的变化情报学研究方法的变化和数据获取渠道的变化是相互影响、相互促进的,过去情报学研究的数据获取渠道单一,主要以文本文献作为数据对象和基础,而当代信息技术环境下,情报学数据获取渠道不仅包括文献数据库数据,还包括商业数据、网络数据和政府数据,常见的数据类型分为电子踪迹、用户生成内容(UGC)、文本数据、空间位置数据[5],这些数据形式都极大地丰富了情报学研究中的数据来源。情报学研究数据渠道的拓展,改变了科学交流的方式,同时也带来了新的研究思路。以往情报学者研究信息搜索或利用行为,主要是通过问卷形式获取用户数据,现在则可以方便地利用点击流和搜索日志,如用户点击网络情况、浏览情况以及IP地址等,这些数据都属于电子踪迹,也可以通过用户生成内容(UGC)。再如,有关文献计量或信息计量分析,过去主要依赖的是引文数据库。但随着情报学数据获取的渠道变得丰富,信息计量学的数据不再仅仅围绕传统的引文库展开,Altmetric.com公司提供的许多替代计量的指标就包括有公共政策文件、主流媒体、维基百科、专利数据等等;PlumAnalytics公司提供的PlumXMetrics指标就包含使用、捕获、提及、社交媒体和引文指标。这些指标所包含的数据来源,其广度和深度远远超过了过去的范围。通常认为,通过正式交流渠道获取文献信息进行科研评价具有一定的局限性。因此,数据来源渠道的扩大,使得科研评价方法得到创新,并且突破局限搭建更客观、公正的评价体系。这不单单是信息计量分析发展的突破口,也是情报学科不断发展的源泉。(2)数据获取方式的变化数据获取方式的变化,主要体现在客观数据向实时数据的转变。过去情报学在研究过程中使用客观数据就比较多(这也是与其他领域最大的差别),主要运用传统结构化数据库,如各种图书馆资源、引文库等,情报学运用客观数据具有成熟的经验。但如今的客观数据,可以通过网络实时日志、社交媒体、开放API、点击流等方式来获取,也就是实时数据。实时数据也可以称为“热数据”[6],相应的,我们可以把过去积累下来的档案性数据称为“冷数据”。情报学以往一直擅长用冷数据分析传统成熟的问题,并且取得了很好的成果。如今也有能力和条件获取热数据,这对解决学科近期的、当前的热点问题、前沿问题和敏感问题非常重要。冷数据是静态的、稳定的、有序的和成熟的数据,比较容易把握,选择性虽然受限,但结果可以预期。相对而言,热数据则是动态、多样、复杂、无序的数据,不仅获取有难度,分析要求时效性,结果也很难把握。这对情报学信息分析提出了更高的要求。对于热数据的获取,可以通过现代化手段或工具对某个特别现象相关的所有数据进行持续跟踪。例如运用大数据采集技术对网络信息进行自动化获取,采用众包(Crowdsourcing)的方式开放、动态地进行协同化信息组织等等。数据获取在情报学研究工作中占有重要的地位,在大数据环境下显得更加重要。(3)数据规模的变化在小数据环境下,情报学研究中的数据规模是有限的,情报分析、用户研究、行为研究、计量研究等通常不过针对几十篇文章、几十个用户来进行分析,因为早期分析大规模数据缺乏相应的数据源、渠道和工具。但现阶段存储计算环境发生了重大变化,可以基于现有技术条件来分析处理海量数据。可以看到现在存留在虚拟空间中的数据规模已经从TB级别上升到了PB级别,甚至未来还会出现EB、ZB甚至是YB级别。面对如此庞大的数据量,情报学领域中越来越多的文献统计研究都是围绕大规模的作者、用户以及文献展开分析。情报学领域的大规模数据源也吸引了其它学科的专家进入情报学研究领域,大大提高了情报学领域的门槛。例如计算科学、统计物理学,这些领域的专家研究信息计量问题,他们拥有处理大规模数据的模型和计算优势,动辄分析几十万作者、上千万篇文献数据,这些技术手段和文献统计工作大大提高了情报学领域的研究水平。从不同的数据渠道、获取方式和规模的变化,可以了解到随着数字化和网络化程度不断加快,情报学研究数据来源具有明显的改善和提升。这些量级、结构、维度空前的数据来源,为研究人员全面探究数据背后事物的真实要素、环节时态给予支持,为情报学研究进一步探究人类信息活动和满足社会信息需求提供了数据保障。
4提供了新的研究工具
在数据来源日趋庞杂和数据化日益明显的情况下,情报学对研究工具性能也提出了新的要求。新技术为传统资料的分析处理提供了新的手段,传统的研究方法在新技术环境下延伸出新的思路。第一,出现了许多专门针对大数据的集成、管理及分析的技术,这些技术以某种软件或系统为载体,极大提高了情报学研究的效率,可以称为有形的研究工具。第二,网络环境作为一种全新的社会形态和活动空间,在这个空间中涌现出一些新的研究方法和实验手段,但没有一定形式的载体,称为无形的研究工具。(1)有形研究工具从数据采集来讲,根据不同领域的数据来源有不同的数据采集工具,例如运用日志采集、网络爬虫或网站公开API等方式获取网络数据,用传感器工具获取自动产生的数据。在数据存储阶段,除了关系型数据库和数据仓库,建立在分布式存储基础上的云存储已经成为大数据存储的主要趋势。在数据分析阶段,传统的分析方法无法满足数据分析需求时,出现了新的大数据处理工具,包括批数据处理、流数据处理、以及非结构化数据处理工具,例如文本数据处理、图数据处理[7-8]。在数据呈现阶段,其挑战在于数据维度高、需求多样化,面向大数据主流应用的信息可视化技术,主要包括文本可视化、网络可视化、时空数据可视化、多维数据可视化等。大数据时代的一系列分析工具帮助情报学研究人员更为有效、可信地处理数据,研究者已经充分认识到,那些以往只能依靠人工,必须付出大量人力、财力和时间成本来分析处理的信息资料,现在依托大数据技术体系可以运用计算机系统进行高效率、低成本的分析处理。(2)无形研究工具网络虚拟空间中形成的社区平台、社交媒体平台等,涵盖了人们生产、生活方方面面的信息。通过互联中介来进行各项人类和社会规律的研究,消除了物理时空的限制,这是许多传统研究方法不能比拟的,比如互联网实验法和在线数据分析法。传统社会科学中有三种数据获取方式:实验室、田野实验和自然实验,但今天互联网提供了一个天然实验室,通过互联网实验室进行各种各样的实验,包括信息行为分析、信息计量等。再如前面提到的众包,通过协同的方式能以较低成本找到更为有效或具代表性的样本,同时兼顾匿名性、质量及成本。在虚拟数字空间中,以传统的研究方法为基础,不断呈现出新的思路和方法,这些方法为满足情报学研究人员进行探究和揭示人类信息活动的规律提供了无限可能性。
5增加了研究人员的参与度
一方面,在过去研究过程中,研究人员获取数据的方式,以及实证分析、案例分析等,都需要密切依靠用户和调查对象配合。在当代信息技术环境下,可以通过工具从网上获取客观数据,或者通过网络虚拟实验室采集研究数据,并不需要被调查对象的配合和响应,不仅提高了研究效率,而且是研究结论更加客观准确。对于研究人员自身而言,除了研究的主体角色外,还可以通过互联网实验平台进行自我体验或检验。另一方面,情报学是一个距离数据很近的学科,所做的工作就是文献、信息、知识的组织,一直都是跟数据、信息、知识打交道,积累了丰富的数据分析处理经验,创新了许多研究方法。大数据大大拓展了许多原有的数据资源的应用范围,使得情报学可以引领其他学科,尤其是人文社会科学研究中的数据分析处理,也能够为其他学科提供研究工具和方法。可以认为,情报学研究人员有足够的空间和机会来一展所长。
6结束语
改变意味着机遇,在新的背景下,情报学研究无论是在研究范式、研究对象、还是研究工具和手段上,都面临巨大的变化。因此,情报学研究应该察觉大势、顺应潮流,在大数据时代应该抓住机遇展现自身的优势。对于获取处理批量的、动态的、交互式的、以及实时的数据,所应运而生的一些有形和无形的研究工具,包括数据挖掘技术、数据处理技术、数据可视化技术等等,在情报学研究中应该予以充分重视和运用。在应用上,情报学科具有良好的发展前景,情报工作和情报学自产生到近几十年的发展过程中,基本上都是作为后勤服务保障性系统出现的。大数据环境带来了巨大改变,情报学善于捕捉、处理和利用数据的传统将使它在整个人文社会科学研究中发挥引领作用,甚至在未来一段时间内,可能会对社会各行各业带来重要影响,因此强调重视情报学领域复合型、交叉型人才的培养。但从历史经验来看,新的环境在带来机遇的同时,也必然会存在各种挑战和困难。对于情报学研究而言,获取信息的价值是信息增值的核心过程,而问题引导才是从大数据中提炼价值的核心。情报学者在解决自身学科问题基础上,可以展开跨学科跨领域研究,在更广阔的背景下进一步促进情报学的发展。
作者:马费成;张瑞;李志元 单位:武汉大学信息资源研究中心