美章网 资料文库 自选式网络调查的统计推断范文

自选式网络调查的统计推断范文

本站小编为你精心准备了自选式网络调查的统计推断参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

自选式网络调查的统计推断

《暨南学报》2015年第八期

一、引言

随着网络的普及及其及时性、客观性、可靠性、低成本性和高效性等特点,越来越多的机构和组织开始采用网络调查。根据调查抽样的方式可将网络调查分为概率抽样的网络调查和非概率抽样的网络调查,非概率抽样的网络调查又可分为娱乐性网络调查、自选网络调查和志愿固定样本的网络调查①,本研究主要讨论自选式网络调查。自选式网络调查就是在各大门户网站上、网上讨论区或专门的调查网站公开发出邀请函,看到此函的上网者可自由选择是否参加调查②,调查问卷只是简单地放在网上,回答者正好是上了网、访问了这个网址并决定去参与这个调查的人群;调查研究者并不控制选择的过程,选择概率是未知的,这样的调查称为自选式网络调查(SelfselectedWebSurvey)③。自选式网络调查可能是当今网络调查中最为流行的形式,由于得到权威科研机构的支持而变得合法化④。传统的抽样推断理论是基于概率抽样的基本原则从总体中随机抽取样本,总体中每一个单元都有一个非零的入样概率,而且所有的入样概率都是已知的,样本单元入样概率的倒数是其权数,将观测结果与样本单元的权数结合实现对总体目标量的估计。但是,自选式网络调查并没有样本的选择,整个总体可能就是一个样本,其样本从传统意义上讲是非概率的样本,入样概率未知,此时概率抽样的原则无法使用,那么如何实现自选式网络调查的统计推断就成为一个需要解决的问题。

纵观国内外关于网络调查的研究,已有一些研究者从不同的方面进行了探讨。国外的Grandcolas等⑤采用了相同的问卷同时进行了网络和纸质的调查,并比较了回答者的均值、方差、偏度和峰度,发现许多显著的不同,同时采用卡方和回归模型去分析不同调查模式的效果,得出这些不同是由抽样偏差而非模式的不同所引起的。Bethlehem①提出了自选式网络调查中总体均值估计的理论框架。Keusch②建立了用于解释调查参与行为的理论框架与在线数据收集方法实证研究之间的系统联结,有助于研究者与实践者采用相应的技术提高网络调查的参与率。国内的刘昊③探讨了网络调查中非抽样误差的来源,提出了预防非抽样误差的对策。马慧敏④阐述了城镇住户网络调查中常见的几类非抽样误差,并对非抽样误差的控制提出了建议。樊茗癑与宗明刚⑤在分析网络调查无回答问题的基础上,运用热卡插补法对网络调查无回答数据进行仿真控制,发现热卡插补法对网络调查无回答问题具有较好的事后补救效果。总之,国内外关于网络调查的研究主要集中在网络与纸质调查的比较、网络调查的参与与回答、非抽样误差等方面,而涉及自选式网络调查的研究非常少,关于自选式网络调查推断问题的研究就更为少见,且仅有的一些研究系统性不足。

本研究针对自选式网络调查进行系统性的探究,给出自选式网络调查总体均值、总量的估计及其性质,并对相应的性质进行推导证明,在此基础上进一步提出可采用倾向得分方法对估计进行加权调整,以提高估计的精度。

二、自选样本的估计

为了便于讨论,现假定总体中的每个个体都能上网(U=U1),即目标总体就是网络总体。如果一个自选样本从网络中产生,参与一个自选式网络调查要求回答者能意识到调查的存在(他们必须是正好访问了这个网址或者看到了电子邮件信息,然后参与这项调查),并决定填网上的问卷,这就意味着在网络总体中的每一个单元i都有参与调查(回答)的未知概率pi,i=1,2,…,N。倾向得分方法是一种用于两个人群(总体)之间进行比较的统计方法,本质上,这种方法试图通过同时控制那些被认为比较有影响的全部变量的方式,来对两个人群之间的特征进行比较①。在网络调查中,也可视为有两个总体:参与网络调查(回答)的总体和没参与网络调查(无回答)的总体。倾向得分可通过对表示某人是否回答的变量进行建模而得到。常常将指示变量(是否回答即Ri)作为因变量,单元的辅助变量作为解释变量建立Logistic回归模型,这些辅助变量常常用于测量单元的态度、行为或生活形态,且参与者和未参与者的辅助变量值都是已知的。为了实现这一点,可通过在自选式网络调查中采取一定的措施找到看到网上问卷(通过访问网址、电子邮件等)但未回答单元的联系方式,如IP地址、电子信箱、QQ、微信、电话等,对无回答的总体以联系方式为抽样框实施随机抽样调查,调查内容以态度、行为或生活形态等辅助变量为主,同时对自选式网络调查中的回答单元必须提出同样的问题(可将辅助变量相关问题一并放入网上问卷中),从而拟合Logistic回归模型就可估计回答概率,即倾向得分。倾向得分p(X)是一个具有观察到的特征向量X(辅助变量)的人参与网络调查(回答)的条件概率,即p(X)=P(R=1|X)。

三、结束语

由于自选式网络调查得到的样本为传统意义上的非概率样本,无法采用概率抽样的统计推断理论对自选样本进行统计推断。本文针对自选样本,考虑网络总体,给出自选样本的总体均值、总量的估计,推导证明了估计的性质,并进一步采用倾向得分方法对估计进行加权调整,为网络调查的统计推断提供一定的参考。此外,若目标总体并非网络总体,即还有一些人没有上网但也是调查的对象,此时就会导致覆盖不全的问题,在此种情况下如何进行统计推断,也是值得进一步研究的问题。

作者:刘展 单位:中国人民大学统计学院