美章网 资料文库 数据科学及期刊编辑学范文

数据科学及期刊编辑学范文

本站小编为你精心准备了数据科学及期刊编辑学参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

数据科学及期刊编辑学

数据科学于20世纪60年代被提出,定义为处理数据的科学[2],但当时并没有引起人们的关注,直到最近流行一个新名词——数据科学家之后,数据科学才真正成为一门新兴的学科。现在它之所以热门,主要是因为数据的广泛性和多样性以及数据研究的共性。当今社会的各行各业都会产生各种分析数据,一方面这些数据类型繁多,不仅包括传统的结构化数据,也包含非结构化数据,如网页、文本、图像、语音、视频等;另一方面,社会的复杂性决定了行业的决策必须依赖于繁多复杂的数据。各行各业对数据的大量需求,使得数据科学受到社会的广泛关注。期刊编辑学中的期刊数据库使用的是数据科学的可视化数据,相关的信息论方法和期刊影响力指标定量分析体系都依赖于数据分析技术,这是期刊界数据科学的核心内容之一。

(一)数据科学及其特征

与数据科学密切相关的一个概念是数据科学家。数据科学家通常是指用统计分析、机器学习、分布式处理等技术,从大量数据中提取对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才[3]。数据科学其实是一个理、工、文综合的新兴交叉学科,主要研究内容包括用数据的方法研究科学和用科学的方法研究数据两个方面。用数据的方法研究科学,涵盖生物信息学、天体信息学、数字地球、数据可视化等学科;用科学的方法研究数据,涉及统计学、机器学习、数据挖掘、数据库等技术手段。这些内容都是数据科学的重要组成部分,涉及多个学科,但只有把它们有机地整合在一起,才能形成整个数据科学的全貌[4]。数据科学的第一特征是通过数据的方法研究科学。例如,开普勒根据天文学家第谷的大量观察数据,总结出了关于行星运动的三个定律。数据科学的第二特征是用科学的方法研究数据。即通过数据采集、数据存储、数据分析等研究数据,首先确定具体的目标函数以及研究的主要目标或要达到的效果,然后分析影响目标函数的主要因素及其表现形式,如表格、点集、时间序列、图像、视频、网络数据、随机噪声数据等,最后再使用已有的科学方法或理论研究。数据科学的第三特征是数据分析。数据分析非常难实现,主要是因为:(1)数据量庞大。数据量大带来的挑战是计算问题,因此一些随机计算和分布式计算方法就显得尤为重要。(2)数据维数高。维数高给人们带来的是维数灾难,即模型的复杂度和计算量随着维数的增加而指数增长。(3)数据类型复杂。数据可以是网页或报纸,也可以是图像、视频,多种类型的数据给数据融合带来了困难。(4)噪音大。数据在生成、采集、传输和处理等流程中,均可能被噪音干扰,这些噪音的存在给数据的清洗和分析带来挑战。此外,数据科学还有大数据的价值特征。在数据爆炸的时代,大数据的广泛应用激起了全世界人们的兴趣,具有巨大的价值前景。

(二)数据科学广泛的社会应用

随着信息化时代数据科学的资源性特点逐渐显露,数据科学在社会生活中的作用越来越大,“用数据说话”已成为人们进行科学研究、管理社会、认识世界的一种新方法。信息化时代,数据成为自然和社会生活的一种表现形式,目前大数据研究已经触及政治、经济、文化、教育、科技等社会领域,人们已习惯用数据记录工作、生活、社会发展等行为信息。现实世界中的事物和现象被以数据的形式存储到计算机中,这些数据被快速、大量地生产和再存储。可以说,信息和数据的传播速度和范围呈现出难以遏制的发展趋势。“数据被认为是一种与能源和材料相提并论的资源,其所蕴含的价值难以估量”[5]33,成为一种重要的战略资源。正如矿产资源需要挖掘、提炼加工后才能变成黄金、钻石和石油,庞大的数据也需要通过大数据技术进行知识挖掘,才能实现其价值[6]。

(三)数据科学与期刊编辑学

数据科学的信息技术给人们的社会生活和感知世界带来了巨大的便利,互联网、App新闻客户端、微博、微信等新媒体形态都以数据的基础信息作为技术支撑,改变了人们对信息的接收方式和习惯[7]5。期刊编辑学作为一门具有广泛社会性的学科,其发展与社会科学、自然科学有着千丝万缕的联系,所以,它的发展离不开对数据科学相关方法的借鉴和吸收。尽管数据科学和期刊编辑学之间的关系这一概念没有被正式地提出,但实际上它们之间的密切关系在数据科学这门学科出现之前就已经存在。期刊编辑学中重要的载体——期刊或期刊数据库,都是数据科学中数据的重要表现形式,同时,期刊编辑学的期刊可视化数据库的研究方法和信息计量学研究方法也为数据科学提供了重要的方法论研究技术。目前,中国科学文献计量评价研究中心及清华大学图书馆研制的“中国学术期刊影响因子年报”,中国人民大学人文社会科学学术成果评价研究中心及中国人民大学书报资料中心研发的“复印报刊资料转载指数排名研究报告”,南京大学中国社会科学评价中心开发研制的引文数据库“中文社会科学引文索引(CSSCI)”(用于检索中文社会科学领域的论文收录和被引用情况)等,对国内期刊进行质量评价所采用的重要工具就是期刊文献计量学。其核心就是对所采集的大量数据进行有目的的分析,建立期刊影响力定量综合评价指标——期刊影响力指数。譬如,相关学者利用CSSCI数据库,在学术研究、期刊测评、机构评估等领域对我国人文社会科学的发展水平和影响力现状进行了广泛、深入的研究,利用CSSCI的数据挖掘技术,充分发挥了学术数据的应用价值,为学术研究和学术创新提供了更好的数据支撑。因此,期刊影响力指标需要借用统计学方法对数据进行定量分析,这是数据科学的研究内容,也是数据科学如何科学评价的关键所在。这就要求在信息化时代的发展背景下,期刊编辑应该具备一定的数据素养,以便从宏观上分析和把握期刊的发展趋势。