本站小编为你精心准备了统计视域下文献资源的选择参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1背景及问题
高等学校中英文图书数字化国际合作计划项目———CADAL项目,是“十五”期间“211工程”公共服务体系建设的重要组成部分。该项目由国家投资,同时还得到了美国合作方投入的相当于1000万美元的软硬件系统支持,项目的英文名称因而被确定为China-AmericaDigitalAcademicLibrary,简称CADAL。该项目与中国高等教育文献保障系统(CALIS)一起,共同成为中国高等教育数字图书馆建设的重要组成部分。目前正在进行二期项目的建设准备工作,CADAL美术资源数字化项目是CADAL二期项目的分支,是以中国美术学院图书馆(以下简称我馆)的美术资源为基础,联合国内其他美术院校图书馆,对涵盖文字、图像和影音信息的美术资源进行大规模、系统化的数字化建设,是CADAL二期拟建设的子项目之一。美术作品数据库(群)的建设是其核心内容,即将馆藏的美术作品原件、高仿画、文物、画册等视觉资源数字化,建设成国画、油画、版画、雕塑、书法、篆刻、建筑等数据库(群),同时,实现数据库(群)的统一检索。CADAL美术资源数字化项目的建设目的是为美术专业教学、科研提供丰富的图像资源[1]。
建设美术资源数据库,需要对美术资源进行前期的调研。由于该数据库是针对图像作品而言,并不是书籍的整合,所以对画册中的美术作品进行选择、甄别是数据库建设中的重中之重。但是由于馆藏画册数量庞大,每本画册所含美术作品数量不一,且不同的画册会出现交叉的美术作品,所以影响到美术作品的统计。
在这一背景下,笔者做了一系列的调研,发现同行对这一问题研究甚少,由于这一问题对CADAL的开展极为重要,故笔者试着从统计学的方法来分析、删选美术作品。
2利用统计学方法选择美术资源
2.1统计学方法及马太效应
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛地应用在各门学科之上,从物理和社会学科到人文学科,甚至被用到工商业及政府的情报决策之上[2]。
我们这里应用到了统计学的分支———文献统计分析,运用定性与定量相结合的方法来选择美术画册中的美术作品。由于涉及的文献样本是美术文献,这里做样本分析的是外国油画作品,所以需要对外国油画作品的画册做个分析。
外国油画作品也遵循了马太效应。马太效应(MatthewEffect),是指好的愈好,坏的愈坏,多的愈多,少的愈少的一种现象。1968年,美国科学史研究者罗伯特·莫顿(RobertK.Merton)提出这个术语用以概括一种社会心理现象,归纳“马太效应”为:任何个体、群体或地区,一旦在某一个方面(如金钱、名誉、地位等)获得成功和进步,就会产生一种积累优势,就会有更多的机会取得更大的成功和进步。就外国油画作品而言,也存在这一现象,即越是著名的画家,其著名的美术作品被重复出版的机会就越多,越是不出名的画家,其美术作品被重复出版的机会就越少,这样就出现了同样的美术作品被重复出版多次的问题。故对这些美术作品做一定的删选,就需要结合统计学的方法得以解决。
2.2美术文献资源的选择
本文将以我馆馆藏的外国油画家作品为例来进行美术文献资源的选择。
2.2.1取得外国油画家的美术作品总数
第一步,求出外国油画家画册(中图分类号为J233)中所含的美术作品平均量。按照书籍厚薄、所含美术作品多少为原则,分别选取10本具有一定代表性的外国油画家画册,统计其美术作品总数及每画册的平均美术作品数,其结果见表1。均每本画册所含美术作品约为98幅。
第二步,查询馆藏外国油画家画册总数。通过图书馆公共检索系统得出本馆外国油画家画册总数为3806册。这里需要注明,本馆已经把所有的纸质画册电子化,并且要求复本数据合并,即系统所查的每条数据就针对一种画册,多个重复的复本画册,都在一条数据中反映。
第三步,求出馆藏外国油画家的美术作品总数,即把步骤一与步骤二的数据相乘得出外国油画家的美术作品总数为372988幅。
2.2.2建立模型
根据采购记录、编目记录及阅览流通的实际经验,我馆馆藏外国油画家画册大致可分为3种,且不同类型分别有不同的比例。A类(藏书量大、作品重复次高的著名油画家画册)约占本类别藏书量的60%;B类(藏书量居中、作品重复次中等的油画家画册)约占本类别藏书量的35%;C类(藏书量小、作品重复量低或没有重复的油画家画册)约占本类别藏书量的5%。
2.2.3求出美术作品总数
按照外国油画家的美术作品总数及其外国油画家的画册在馆藏中不同比例,可以大致推导出在不排除全部藏书种类中的图片交叉重复采用的前提下,3种类型的油画家画册中所含的美术作品总数如下:A类(藏书量大、作品重复次高的著名油画家画册)的美术作品总数为:372988×60%=223792幅;B类(藏书量居中、作品重复次中等的油画家画册)的美术作品总数为:372988×35%=130545幅;C类(藏书量小、作品重复量低或没有重复的油画家画册)的美术作品总数为:372988×5%=18649幅。
2.2.4统计不重复的图片量
首先建立一个假设,即假设馆藏的美术作品中都有一个外国油画家作品全集,此全集作品囊括了该画家的所有油画作品。故凡是同一个外国油画家,出现了N次,他的作品都可被认为是重复了N次他的作品全集。建立这个假设方便进行下面的推导。为排除美术作品的重复量,我们对3种不同类型的油画家画册分别选取了3个样本,每个样本分别选取10位油画家(见表2),然后在我馆的电子资源中查询油画家的相关数据数。以此推导出3种类型美术作品的平均被重复次数。
A类的重复次数为26.9次。B类、C类以同样的方式取得不同的重复次数,即B类的重复次数为4.4次,C类的重复次数为1次。在此基础上,将3种类型油画家美术作品总数分别除以3个平均重复次数,从而得出3种类型美术作品量(即没有重复的美术作品)为:A类8320幅、B类29669幅、C类18649幅,总幅数为56638幅。
2.2.5补充其他因素以完备数据的真实性
由于以上推导模型是基于理想的模型而产生,故需要补充排除在外的作品图片量,最终推导出全部藏书中的真实图片数。如一些美术作品不是以个人形式出版,以合集等其他形式出版;还有就是上面的假设是完全重复,现实中有一些是没有被完全重复的美术作品。基于这点,从馆藏的实际情况出发,发现除了C类,由于选定的都是零重复的美术作品,故不存在遗漏的美术作品,其他A类和B类都有。这些被忽略的图片数根据不同类型也有不同的比例。其中A类被忽略的大致占图片总数(排除重复后)的15%(即1248幅),B类被忽略的大致占图片总数的10%(即2967幅)。综合以上所有数据,得出外国油画作品为60853幅,即我馆所藏美术资料中一共包含60853幅美术作品。
3结语
从以上推导中,我们可以发现,统计学在美术文献资源的选择中发挥了很大的作用,这里面应用了很多统计学的原理,同时也考虑到马太效应。这一推导模型需要不断地推导研究才能完善,笔者希望以此抛砖引玉,以求有更好的方法来解决这个问题。