本站小编为你精心准备了传统媒体在互联网中的运用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
本文作者:惠恭健李明单位:江南大学人文学院讲师华东师范大学传播学院博士生南京大学新闻传播学院讲师南京大学社会学系博士生
1引言
内容分析法是应用最为广泛的社会科学研究方法之一,大量的实证研究都是通过这种方法进行数据搜集与处理。贝雷尔森认为,内容分析法是一种对显在的传播内容进行客观、系统和定量描述的研究方法[1]。随着互联网的出现,许多适用于传统媒体研究的方法和工具已不再能完全沿用,内容分析法在媒体研究中的应用也必须根据媒介形态的改变而作出及时的调整与改变。对传统媒体进行内容分析时,由于媒体内容是已被刊播过的,内容分析法的应用是针对确定的研究对象;而互联网内容综合了文字、声音、图像等多种传播方式,并以超文本的方式进行内容呈现,内容分析法在应用时其研究对象是无时无刻不处于变化之中的。因此,内容分析法作为一种研究工具,面对传统媒体和互联网这两种不同特性的媒体,需要作出应用方式和方法上的改进与完善。回顾已有的涉及互联网内容分析的论文,描述性研究占了绝大多数,以假设检验或理论建构为研究目的的论文还比较少。从纯粹描述性的研究向假设检验或理论建构式研究的过渡,应该是互联网内容分析努力和发展的方向。因此,笔者在本文的阐述中将更注重内容分析在互联网和传统媒体研究中应用过程的差异,具体集中在抽样、确定分析单位、收集资料和信度检验等具体环节上的不同处理,以期通过这样的对比来完善和促进内容分析法在互联网媒研究中的应用与拓展。
2互联网内容分析中的抽样实施与传统媒体的内容分析相比,互联网内容的海量化使抽样框和抽样方法的选择更需灵活性。
2.1抽样单位的选择
抽样单位的选择一般要根据研究问题的需要。传统媒体的内容分析中,抽样单位一般为文本、词语、标题、图像、符号等;而对于互联网内容分析来说,常见的抽样单位是网站或网页,因为网站和网页是互联网的基本结构单位,而且在具体操作时,抽取网站或网页比较便利.
2.2抽样框的建立
在具体抽取一个样本之前,往往要预先建立一个抽样框。抽样框简而言之就是研究总体中各个元素的列表或准列表。对传统媒体进行内容分析时,抽样框的确立一般根据研究问题的需要,以媒体发行或播出的全部或部分内容作为抽样框。如有学者研究改革开放以来《人民日报》的三农报道,一般会选择1978年以来的所有期次的《人民日报》作为抽样框。虽然有些传统媒体历史悠久,积累的内容较多,但与互联网的海量信息相比,传统媒体的内容规模可谓望尘莫及。因此,互联网内容分析抽样框的选择与传统媒体相比,更需要灵活性。互联网内容分析中抽样框的建立,可以分为离线和在线两种方式。离线型抽样框主要根据已有的网站域名名录、公司域名名录等建立,比如以中国上市公司网站作为抽样单位,可以根据中国上市公司名录或中国上市公司网站域名目录建立抽样框。但是,离线型抽样框有一个主要问题,即用于建立抽样框的已有名录往往已经过时了。克勒研究了网站存在的时间问题,他随机抽取了一个网站样本,一年之后发现其中25.3%的网站已经不存在了,而保留下来的网站的信息容量比原来增加了两倍多[2]。可见,离线型抽样框的应用非常有限。于是,另一种在线型抽样框成为大多数研究者的首选。搜索引擎是获得在线型抽样框的最常见途径,通常用于没有可用的名录或已有名录已经过时等情形。一般由研究者根据研究问题确定适合的搜索关键词,关键词的确立关系到搜索结果的代表性。通过搜索引擎获得在线型抽样框的方法存在两方面的问题。一是搜索引擎往往不能穷尽所有网页。劳伦斯和贾尔斯分别对11个主要搜索引擎研究发现,它们只搜索了互联网全部网页的42%,也就是说,有一半以上的网页搜索引擎根本就没有搜索到,而且随着互联网内容的急剧膨胀,这个比例还在不断缩小[3]。二是网页被搜中的概率并不相同。搜索引擎一般优先搜索被链接次数较多的网站或网页,因而此类网站或网页被搜中的概率往往要高于其他网站或网页。总结、比较以上两种抽样框,离线型抽样框建立和使用比较方便,但往往不可靠;在线型抽样框相对比较准确,但要求研究者熟悉搜索引擎,并且工作量较大。
2.3样本的抽取
抽样框确立后,下一步就是抽取样本。根据概率抽样原则,正确的抽样应该保证“总体中每个个体都有同等的、独立于其他事件的被抽中的机会。”[4]在对传统媒体的定量内容分析中,虽然概率抽样的方法在近年来应用越来越多,但便利抽样、立意抽样等非概率抽样法仍是主流。有学者对《新闻学季刊》25年间采用内容分析法的论文统计发现,大部分论文采用便利抽样或立意抽样的方法,只有22.2%论文采用概率抽样法[5]。在以往的互联网研究中,也有大量论文采用非概率抽样法,最常用的是随机数表法,即根据抽样框采用随机数表进行抽样。这种方法在抽样框规模较小的情况下使用比较便利,若抽样框是根据关键词搜索结果制定的,搜索结果会因为没有编号而耗费大量的人力和时间。如果研究某问题时很难得到一个有效的抽样框,就无法运用随机数表进行准确的概率抽样。遇到这种情况,可以利用互联网内容层级化结构的特点,采用分层抽样的方式,在网站或搜索引擎的每个层级上进行随机抽样,注意控制各层的样本数量,以保证样本结构的代表性。在互联网内容分层比较合理的情况下,分层抽样可以取得更有代表性的样本。
3互联网内容分析中的分析单位确定
与传统媒体的内容分析相比,互联网内容的超文本特性导致分析单位的复杂化。内容分析法的分析单位包括编码单位(codingunit)和语境单位(contextunit)。所谓编码单位,即研究者根据预先设定的类目,从需要分析的资料中找出符合类目要求的信息的基本单位。如对于报纸内容,编码单位可以是单个字词、标题、句子、段落,也可以是整篇文章。编码单位的选择要根据研究问题的需要,尽可能选择较小的单位,因为用较小单位编码的信息可以以较大编码单位重新聚合,而用较大单位编码的信息无法以较小编码单位进一步分解。语境单位是相对于编码单位而言的,是研究者为了考察编码单位存在的上下文语境和范围而选择的分析单位。如果对某报纸的新闻内容进行分析,确定编码单位是某些字词,那么语境单位可以是这些字词所在的句子、段落或者是整篇新闻。研究者也应该根据研究问题的需要,选择合适的语境单位。传统媒体的内容形式比较单一,编码单位和语境单位的确立相对比较简单。对报纸、杂志、传单等平面媒体而言,编码单位大多为文本、标题、关键字词、图片等;对广播、电视等电子媒体而言,编码单位大多为时长、镜头、角色、形象、色彩、对白等。传统媒体内容分析的语境单位选择也比较简单,一般为意群、整个文本、整段音频或整段视频图像。互联网内容的超文本特性会给分析单位的确定带来一定的困扰。研究者在选择编码单位时问题尚不突出,只是可能会根据研究问题的需要,同时选择多种媒体种类的编码单位,增加了编码工作的难度。对于语境单位的选择标准则存在争议,由于互联网内容分析的编码单位往往不是单一的,可能是包括文字、声音、图像等多种媒体类别,因此有学者认为,应该把整个网站作为语境单位;也有学者认为以整个网站作为语境单位过大了,可以以网站的首页或前三层信息作为语境单位。综合多方观点,网站的首页应该是互联网内容分析理想的语境分析单位。有些网站可能拥有近万个网页,对之进行全面的内容分析不但要耗费大量时间,还会因为网站的巨大信息容量而使研究问题发生偏离。
4互联网内容分析中的资料收集和信度检验与传统媒体的内容分析相比,互联网内容的变动性增加了资料收集和信度检验的难度。
4.1资料搜集
相对于互联网内容,传统媒体内容分析的资料搜集工作比较简单,只要找到被抽中的那些期号的报刊、特定时段的广播录音或电视节目录像等即可。由于这些报刊已经发行、广播电视节目已经播出,其内容已经确定而无法更改,资料收集到后,研究者可以从容进行编码分析。互联网内容实时变动的特点,给内容分析的资料收集带来一定的难度。为了避免在收集资料过程中样本内容变动所带来的误差,有学者提出尽量缩短收集资料的时间,组织人力在尽可能短的时间内完成资料收集工作。克勒甚至建议研究者使用特定的下载工具,将所要分析的网站整个下载下来,再根据抽样方案选择编码内容[6]。这个方法虽然能够有效避免因互联网内容变动带来的资料收集误差,但许多国家的版权法明令禁止下载整个网站内容,因为涉嫌侵犯网站的知识产权。因此这个方法虽然有效,但从现有的研究报告看,并没有得到广泛的使用。
4.2交互信度检验
对所收集的互联网内容进行编码后,编码结果需进行信度检验,以测量编码的可靠程度。交互信度的测量是常用的信度检验方法,其基本思想是至少有两个人分别独立对相同的内容进行编码,然后测量编码结果的一致性程度。传统媒体的内容分析对象一经选定,就固定下来了,研究者可以从容地将需要交互编码的内容分配给不同的编码员,最后根据交互编码结果计算得出交互信度。互联网内容的实时变动性会干扰交互信度的测量。交互信度的测量要求两个或两个以上的编码员对同一内容进行编码,如果编码员在不同时间上网编码,不同编码员所面对的是同一个网站或网页,但他们所编码的网站或网页内容可能各不相同,这样就违反了交互信度检验的基本假定,其结果也就没有解释意义了。米索等人在三周内对290个网站内容前后进行两次编码,当他们第二次编码时发现,其中的23个网站已经不存在了[7]。因此有学者提出,编码员们应在同一时间对同一互联网内容进行编码,以克服上述问题,但在具体操作中,编码员很难完全同步地对互联网内容进行编码。有人提出先下载所有待编码的内容,然后分发给编码员进行编码,这种方法虽然能解决上述问题,但会因侵犯网站知识产权而带来诸多法律问题。如果编码工作由一个编码员完成,则可用“二次编码法”检验编码信度。具体操作方法是研究者先在待编码内容中选择一小部分,编码员在编码初期和即将完成时分别对之进行编码,然后比较编码结果的一致性程度。用“二次编码法”对互联网内容编码进行信度检验时,也要注意互联网内容的变动性问题。
5思考与展望
内容分析法是劳动密集型的工作,往往要耗费大量的人力、物力,而且研究周期比较长。从上世纪60年代开始,就有许多专家学者致力于内容分析的自动化或者计算机化。他们设计了很多内容分析的软件,取得了一定成绩,但由于这些软件一般对被分析的文本要求较高,而且需要较多的人工干预,因此应用并不广泛。如果将这些软件用于分析面广量大、多种媒体杂陈并包含大量不规范信息的互联网内容,必定会错误百出。况且,这些软件一般没有中文版,无法分析中文信息。祝建华和李晓明发起的“中文易社科”(Chinesee-SocialScience)计划的第一项研究———“网页内容分析工具”(e-ContentAnalysisTool,简称“易猫”),使中文互联网内容分析的自动化迈出了第一步。祝建华和李晓明假定中文社会科学研究者通过内容分析所需的70%~80%的数据是诸如时间、地点、人物、事件和原因等简单事实,将“易猫”定位为易用廉价的傻瓜化的分析工具,以提高其适用性。“易猫”是基于搜索引擎的内容分析工具,其主要操作步骤如下。(1)将用户输入的查询提交到各中文搜索引擎;(2)对返回的结果网页进行过滤和消重;(3)对净化后的网页进行切词,并将提取的实词按照人名、机构、地名、时间词和普通名词等归类;(4)展示各类词的频率排序,或任意两类词的交叉排序;(5)将提取的所有词频存入一个数据矩阵,以便供有需要的用户做深入的统计分析[8]。课题组用“易猫”成功预测了2006年“超女”比赛的前四名,除了在排名顺序上二三名倒置外,其余都与比赛结果一致,预测准确率达到93.8%。“易猫”的研究尚处初级阶段,在辨认事实及其因果描述方面准确度还有待提高,然而这种自动化的内容分析工具为中文互联网研究开辟了新天地。