关于家庭的抽样调查问卷权重

关于家庭的问卷调查,比如家庭收入、面积、成员数量等,如果抽样调查问卷是不能确认,一家只填写一次。那么需要设计权重。

比如两家的家庭成员数量分别为 2 与 6,假设抽样 4 人做家庭成员数量统计,那么较大可能会出现「2、6、6、6」的统计结果。如果直接求平均值:(2 + 6 × 3) / 4 = 5,显然比预期的 4 人高,因为家庭成员数量多的家庭,更容易被统计到。

使用家庭成员数量的倒数作为权重:(2 × 1/2 + 6 × 1/6 × 3) / (1/2 + 1/6 × 3) = 4,这样就合理。式子的前半部份相当于参与调查的人数,直接写成 4,问题也不大。

后半部分是加权过的家庭数量,2 和 6 人家庭的问卷结果都是一半,所以都算半个家庭,这个算法修正了家庭权重,也就能算出更精确的平均家庭成员数量了。

附言:此问题来自 阿健 的群组,原本是从「你有多少个兄弟姐妹」投票结果,反推群友母亲平均生育数量的算法问题。

附言 2:一群人中存在家人关系的期望值并不低,具体可以查看 生日问题。期望值高于 1 %,只要 3171 人。高于 50 % 也仅需 26328 人。就算不考虑家庭成员数量影响统计结果,问卷统计到一家人的概率也不低。(按照中国有 5 亿个家庭计算)

参考了 Weights of survey data | #杂谈 #数学
 
 
Back to Top