平台介绍
统计方法

统计流程

 

样本加权算法

在实际统计过程中,样本结构与总体结构往往难以完全吻合,而不同类型的网民其互联网行为偏好也存在着差异。在这种情况下,要想较为准确地推断总体信息,提高估计的精度,就必须对样本结构进行加权调整。 样本加权利用样本的辅助变量,以及既有调查得到的总体辅助变量信息,给每一个样本赋予一个合适权重,使得加权后的样本结构尽可能接近总体结构,从而达到提高估计精度的目的。 在选择辅助变量时,应选择那些与研究变量有较高相关性的辅助变量,同时辅助变量的总体数据也应该是可以获得或估算的。中国互联网数据平台目前选用的辅助变量包括性别、年龄、学历、职业、月收入、地理位置等。

实现上,中国互联网数据平台采用了“校准加权调整算法”[1]:

记有限总体为U={1,…,k,…,N},S⊆U为抽取的一个样本,基于抽样设计的样本单元初始权数为d k=1/π k ,其中π k是样本中第k个单元被抽中的概率。记由多个辅助变量构造的示性向量形式为(X 1,X 2,…,X p)',样本中第k个单元的示性向量为x k=(x 1k,x 2k,…,x pk)',其中若样本k在第i类,则x ik=1,否则x ik=0。

用X=∑UXk 表示已知的辅助信息的总体总量,校准加权调整就是根据辅助信息X对dk进行校准得到样本权重wk,使得在满足校准方程∑Sx kw k=∑ Ux k 的约束条件下,d k与w k之间的距离最小。若使用距离函数G(x),其中x= w k/d k ,则上述问题转化为:

其中,λ是拉格朗日乘子。当w k=d kF(x' kλ)时,上式取得最小值,其中F(u)=g -1 (u),g(x)=G' (x)。将w k=d kF(x' kλ)带入校准方程∑ Sx kw k=∑ Ux k ,可求解得到λ,进而得到w k

在计算过程中,中国互联网数据平台选用了指数型距离函数,作为d k与w k之间的距离衡量。

 

参考文献:

[1]金勇进,薛芳,侯志强.样本结构性偏差的校准加权调整方法[J].统计与决策,2007,(10):8~10

[2]金勇进,王飞.多变量联合加权应用研究[J].统计与决策,2002,(10):8~14

[3]金勇进,王飞.校准调整估计量线性和指数距离函数的比较[J].统计与决策,2006,(1):6~7

[4]Deville, J. C. and Sarndal, C. E. Calibration Estimation in Survey Sampling[J]. Journal of the American Statistical Association, 1992, 87: 376-382.

[5]Deville, J. C. Sarndal, C. E. and Sautouy. Generalized Raking Procedures in Survey Sampling[J]. Journal of the American Statistical Association, 1993, 88: 1013-1020.

[6]Li-Chun Zhang. Post-Stratification and Calibration-A Synthesis, the American Statisticaian, 2000, 54(3): 178-184.

[7]Alain Theberge. Extensions of Calibration Estimators in Survey Sampling[J]. Journal of the American Statistical Association, 1999, (94): 635-644.

[8]Oh, H. L. and Scheuren, F. Modified Raking Ratio Estimation, Survey Methodology, 1987, (13): 209-219.

 

关于中国互联网数据平台使用的统计方法,我们真诚欢迎任何人提出建议或与我们讨论,从而帮助我们不断改进,相关建议可以发送至邮箱:idp@cnnic.cn。

京ICP备09112257号 版权所有 Copyright © 2010 CNNIC (建议使用浏览器:IE8、Firefox、Google Chrome)