第2章
2.1 解:?1? 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号
为1~64的这些单元中每一个单元被抽到的概率都是
1。 100?2?这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中
的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是抽中的编号为36~63的每个单元的入样概率都是
2,而尚未被1001。 100?3?这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 000~
21 000中的每个单元的入样概率都是
1,所以这种抽样是等概率的。 1000 不同之处 2.2解: 项目 相同之处 定义 都是根据从一个总体中抽样得到的样本,然后定义样本均值为1ny??yi。 ni?1_抽样理论中样本是从有限总体中按放回的抽样方法得到的,样本中的样本点不会重复;而数理统计中的样本是从无限总体中利用有放回的抽样方法得到的,样本点有可能是重复的。 性质 (1) 样本均值的期望都等于总体均值,也就是抽样理论和数理统计中的样本均值都是无偏估计。 (2) 不论总体原来是何种分布,在样本量足够大的条件下,样本均值近似服从正态分布。 (1) 抽样理论中,各个样本之间是不独立的;而数理统计中的各个样本之间是相互独立的。 (2) 抽样理论中的样本均值的方差为_1?f21??2V?y??S,其中S?Yi?Y?。??nN?1??2在数理统计中,V?y??方差。 12?,其中?2为总体的n 2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大
样本的条件下,间为?y?z?y?YV?y?_?y?E?y?V?y?近似服从标准正态分布, Y的1???95%的置信区
_?2V?y?,y?z?2V?y????y?1.96V?y?,y?1.96V?y??。
???1
而V?y??1?f2S中总体的方差S2是未知的,用样本方差s2来代替,置信区间n为?y?1.96??1?f1?fs,y?1.96nn_2?s?。 ?由题意知道,y?9.5,s?206,而且样本量为n?300,N?50000,代入可以求得
v(y)?_1?f21?30050000s??206?0.6825。将它们代入上面的式子可得该市居民n300日用电量的95%置信区间为??7.8808,11.1192??。
下一步计算样本量。绝对误差限d和相对误差限r的关系为d?rY。 根据置信区间的求解方法可知
_?__y?Y?_?__??P?y?Y?rY??1???P?????V?y????rY????1??
V?y????_?__?2_y?Y????rY???根据正态分布的分位数可以知道P?。?Z?2??1??,所以V?y?????z?V?y????2??????_?rY??11?也就是???S2???n?1??nNz????2?_222??_????rY??1?????。
22?Nz??/2S????把y?9.5,s?206,r?10%,N?50000代入上式可得,n?861.75?862。所以样本量至少为862。
2.4 解:总体中参加培训班的比例为P,那么这次简单随机抽样得到的P的估计值p的方差V?p??1?fNp?PP?1?P?,利用中心极限定理可得在大样本的条件下近
nN?1V?p?似服从标准正态分布。在本题中,样本量足够大,从而可得P的1???95%的置信区间为
?p?z?2V?p?,p?z?2V?p??。
??而这里的V?p?是未知的,我们使用它的估计值
2
V?p??v?p??^1?fp?1?p??9.652?10?5。所以总体比例P的1???95%的置信区间n?12可以写为?p?z??v?p?,p?z?2v?p??,将p?0.35,n?200,N?10000代入可得置
?信区间为??0.2844,0.4156??。
2.5 解:利用得到的样本,计算得到样本均值为y?2890/20?144.5,从而估计小
区的平均文化支出为144.5元。总体均值Y的1???95%的置信区间为
_?y?z?2V?y?,y?z?2V?y??,用v?y??1?fs2来估计样本均值的方差V?y?。 ??n1?f21?0.12s??826.0?256,37.172计算得到s?826.0256,则v?y??n20z?2V?y??1.96?37.172?11.95,代入数值后计算可得总体均值的95%的置信区间为
?132.55,156.45?。
2.6 解:根据样本信息估计可得每个乡的平均产量为1 120吨,该地区今年的粮食总
产量Y的估计值为Y?350y?350?1120?3.92?10(吨)。
^N2?1?f?2??总体总值估计值的方差为V?Y??总体总值的1???95%的置信区间S,n??^?^?^?^?^??52为?Y?z?2V?Y?,Y?z?2V?Y??,把Y?3.92?10,S?25600,n?50,N?350,
????????^_5f?n,z?2?1.96代入,可得粮食总产量的1???95%的置信区间为N??377629,406371??。
2.7 解:首先计算简单随机抽样条件下所需要的样本量,把
?1d2?N?1000,d?2,1???95%,S?68带入公式n0?1??22?,最后可得
?Nz?/2S?2n0?61.3?62。
如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为
n?n070%?88.57?89。
2.8 解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关
系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为X?2135。利用去年的化肥总产量,今年的化肥
3
总产量的估计值为YR?RX?^^yx__X?2426.14吨。
1?f2s=37.17。 n2.9 解:本题中,简单估计量的方差的估计值为v?y??利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为X。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。
文化支出的比率估计量为yR?RX?__^_yx__X,通过计算得到y?2890/20?144.5,而
___144.5x?1580,则R?_?。 ?0.0915,文化支出的比率估计量的值为yR?146.3(元)
x1580^y_现在考虑比率估计量的方差,在样本量较大的条件下,
V?yR??MSE?yR??22x1?f2S?2R?S?Sx?R2Sx2?,通过计算可以得到两个变量的样?n4^本方差为s?826,s?9.958,Y和X之间的相关系数的估计值为??0.974,?10?_?代入上面的公式,可以得到比率估计量的方差的估计值为v?yR??1.94。这个数值
??比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的1???95%的置信区间为?yR?z??2v?yR?,yR?z?2v?yR????yR?1.96v?yR?,yR?1.96v?yR??,
???把具体的数值代入可得置信区间为?143.57,149.03?。
?_??_?V?yR?v?yR???????1.94?0.052,这是比估
接下来比较比估计和简单估计的效率,
V?y?v?y?37.17计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。
22.10 解:利用简单估计量可得y??yin?1630/10?163,样本方差为s?212.222,
N?120,样本均值的方差估计值为v?y??1?f21?10/120s??212.222?19.4537。 n10利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是
合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相关性,相关系数的估计值为??0.971,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。
回归估计量的精度最高的回归系数?的估计值为???^^^s14.568?0.971??1.368。sx10.3414
?__?现在可以得到肉牛现重量的回归估计量为ylr?y???X?x?,代入数值可以得到
??^_ylr?159.44。
_?_??_?1?f2回归估计量ylr的方差为V?ylr??MSE?ylr??S?1??2?,方差的估计值为
n????_2?_?1?f2?^?v?ylr??s?1???,代入相应的数值,
n????2?_?1?f2?^?v?ylr??s?1????1.112,显然
n?????_?有v?ylr??v?y?。在本题中,因为存在肉牛原重量这个较好的辅助变量,所以回归估计量
??的精度要好于简单估计量。
第3章
3.1 解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下:
(1)选择性别作为分层变量,是不合适的。首先,性别这个变量与研究最关心的变量(不同职务,职称的人对分配制度改革的态度)没有很大的相关性;其次,用性别作为分层变量后,层内之间的差异仍然很大,相反,层之间的差异不是很大,因为男性和女性各自内部的职务,职称也存在很大的差别;最后,选择性别作为分层变量后,需要首先得到男性和女性的抽样框,这样会更加麻烦,也会使抽样会变得更加复杂。
(2)按照教师、行政管理人员和职工进行分层,是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关,而且按照这种方法分层后,可以看出层内对于分配制度改革的态度差异比较小,因为他们属于相同的阶层,而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。
(3)按照职称(正高、副高、中级、初级和其他)分层,也是合理的。理由与(2)相同,这样进行分层的变量选择与调查最关心的变量是高度相关的,分层后的层满足分层的要求。所以,按照职称进行分层是合理的。
(4)按照部门进行分层,是合理的。因为学校有很多院、系或者所,直接进行简单随机抽样,有可能样本不能很好地代表各个院系,最关心的变量与部门也存在一定的相关性。这样分层后,每个层的总体数目和抽取的样本量都较小,最终的样本的分布比较均匀,比简单随机抽样更加方便实施。
3.2 解:设计的方案如下:
第一种方案:可以按照不同的专业进行分层,但是考虑到如果在每层都抽取,不能保证每个新生的入样概率相等,因为每个专业的人数比例未知,8个人的样本量无法在每个层之
5
间进行分配。所以采取如下方法:对所有的新生按照专业的先后顺序进行编号,使得每个专业的人的编号在一起,然后随机选取出一个号码,然后选取出这个号码所在的专业,选取出这个专业,再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。
第二种方案:也可以按照性别进行分类,对他们进行编号,为1~800,使得男生的编号都在一起,女生的编号也都在一起,然后随机选取出一个号码,然后看这个号码所对应的性别,然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。
第三种方案:随机地把所有的人分成8组,而且使得每组的人都是100个人,这样分组完成后,每个组的新生进行编号为1~100,然后随机抽取出一个号码,再从所有的小组中抽取出号码所对应的新生,从而抽取出8个人。
3.3 解:(1) 首先计算出每层的简单估计量,分别为y1?11.2,y2?25.5,y3?20,其中,N1?256,N2?420,N3?168,N?844,则每个层的层权分别为;
___W1?NN1N?0.3033,W2?2?0.4976,W3?3?0.1991 NNN_则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量yst?值可以得到yst?_?Whyh,代入数
_?Whyh?20.07。
_?_?321?fh2购买彩票的平均支出的的估计值的方差为V?yst???Wh此方差的估计值Sh,
nh??h?1?_?321?fh2为v?yst???Whsh,根据数据计算可以得到每层的样本方差分别为:
n??h?1h2s12?94.4,s2?302.5,s12?355.556
?_?其中n1?n2?n3?10,代入数值可以求得方差的估计值为v?yst??9.4731,则估计的标
???_??_?准差为s?yst??v?yst??9.4731?3.08。
????(2)由区间估计可知相对误差限满足
_??_y?Yst?__rY?????P?yst?Y?rY??1???P????1??
V?yst?????V?yst?????所以rYV?yst?_?_?rY?。 ?z?2,V?yst????z?2???6
2
21?fh21Wh2Sh12样本均值的方差为V?yst???W,从而可以得Sh????WhShnhn?hNh?132h到在置信度为
?,相对误差限为r条件下的样本量为
22Sh?hWh2Sh?h?。 n??2_12V?yst???WhSh?rYz??1WS2?hh?2??N??N2h?W①对于比例分配而言,有Wh??h成立,那么n??WSh_22h1??2rYz?WhSh??2????N,把相应
的估计值和数值1???95%,r?10%代入后可以计算得到样本量为n?186,相应的在各层的样本量分别为n1?56.4?57,n2?92.6?93,n3?186?n1?n2?36。
②按照内曼分配时,样本量在各层的分配满足?h?WhSh算公式变为n??WShh,这时样本量的计
??WS?hh21??rYZ??2????N_2,把相应的数值代入后可得n?175,在各层中
h2h?WS的分配情况如下:n1?33,n2?87,n3?186?n1?n2?66。
3.4 解:(1) 首先计算得到每层中在家吃年夜饭的样本比例为
p1?0.9,p2?0.9333,p3?0.9,p4?0.8667,p5?0.9333,p6?0.9667,那么根据每一
层的层权,计算得到该市居民在家吃年夜饭的样本比例为pst? 每一
?Wphh?16h?92.4%。
层中在家吃年夜饭的样本比例的方差为
1?fhNhNh?nhPh?1?Ph?,则该市居民在家吃年夜饭的比例V?ph??Ph?1?Ph??nhNh?1Nh?1nh216Nh?Nh?nh?的方差,在Nh?1?Nh的条件下,V?pst???WV?ph??2? Nh?1Nh?1h?162hPh?1?Ph?62P?1?Ph?,而其中每层的吃年夜饭的样本比例的方差的估计??Wh?1?fh?hnhnh?1h值为v?ph??1?fhnhN?nhph?1?ph?,则样本比例的方差的估计值ph?1?ph??hnhnh?1Nhnh?17
为v?pst??2Wvp?W????h?1?fh?h2hh?1h?166ph?1?ph?,把相应的数值代入计算可得方差的
nh?1估计值为v?pst??3.9601?10?4,从而可以得到该估计值的标准差为s?pst??0.0199。
22Sh?hWh2Sh?h??(2)利用上题的结果,n?,这里的方
21122V?pst???WhSh?rPZ?2???WhShNN2h?W差是Sh?2Nh2Ph?1?Ph?,在Nh?1?Nh的条件下,近似有Sh?Ph?1?Ph?。 Nh?1①比例分配的条件下,有Wh??h成立,那么n??WSh2h?rPz??221?N,把相应的
h2h?WS估计值和数值代入可以求得最终的样本量应该是n?2663,样本量在各层的分配是n1?479.34?47n9,2?559.?23n5?9,353?72.,83n4?3239.6773?240,
n5?426.08?426,n6?585.86?586。
WhSh???②内曼分配条件下,?h?WhSh?WhSh,则n?,代入相
212?rPZ?2??N?WhSh2应的估计值和数值可以计算得到样本量为n?2565,在各层中样本量的分配为n1?536,n2?520,n3?417,n4?304,n5?396,n6?392。
3.5 解:总体总共分为10个层,每个层中的样本均值已经知道,层权也得到,从而可以计算得到该开发区居民购买冷冻食品的平均支出的估计值为yst??Wyhh?110h?75.79。
下一步计算平均支出的95%的置信区间,首先计算购买冷冻食品的平均支出的估计值的
?_?1021?fh2方差,其中V?yst???WhSh,但是每层的方差是未知,则样本平均支出的方差的
nh??h?1?_?1021?fh2估计值为v?yst???Whsh,每个层的样本标准差已知,题目中已经注明各层的抽
n??h?1h?_?1021?fh2样比可以忽略,计算可以得到v?yst???Whsh?59.8254。则这个开发区的居民
nh??h?1 8
??_??_??购买冷冻食品的平均支出1???95%置信区间为?y?z?2v?yst?,y?z?2v?yst???
??????????_??_???y?1.96v?yst?,y?1.96v?yst??
????????代入数值后,可得最终的置信区间为?60.63,90,95?。
3.6 解:首先计算简单随机抽样的方差,根据各层的层权和各层的总体比例可以得到总体的比例为P??WPh?13hh?0.28,则样本量为100的简单随机样本的样本比例的方差为
1?f21NS,不考虑有限总体校正系数,V?p??S2,其中S2?P?1?P?, nnN?1在N?1?N的条件下,通过简单随机抽样得到的样本比例的方差为
1?f21V?p??S?P?1?P??2.016?10?3
nnV?p?? 通过分层抽样得到的样本比例的方差为V?pst??2W?h1?fh2Sh,但是因为不考虑有 nh限总体校正系数,而且抽样方式是比例抽样,所以有
Nhn?Wh??h?h成立,样本比例的Nn2WhShNh122??WhSh方差近似为V?pst???。对于每一层,分别有Sh?Ph?1?Ph?,nnNh?1在Nh?1?Nh的条件下,近似的有Sh?Ph?1?Ph?成立,有
222S12?0.09,S2?0.16,S3?0.24
?WS 样本量应该满足n?h2hV?pst?,同时这里要求分层随机抽样得到的估计的方差和简单抽
样的方差是相同的,V?pst??V?p?,层权分别为W1?0.2,W2?0.3,W3?0.5,代入数值,
?WS可以计算得到最终的样本量为n?h2hV?pst??0.186?92.26?93。 ?32.016?103.7解:事后分层得到的总体均值的估计量和估计量的方差分别为
E?ypst??Y,EVar?ypst??
1?f11?f22WS?1?WSvy?,估计量的方差的估计值?????hhn2?hhpstnn121?Ws。 ???hh2n
_???Ws2hh?
9
对于几种说法的判断如下:
(1)事后分层比简单随机抽样产生更加精确的结果,这个说法是错误的。从事后分层得到估计量的方差的估计值来看,它的方差不一定比简单随机抽样的要小,而且从事后分层得到的样本是利用简单随机抽样的方法得到的,只是在计算估计量和估计量的方差时是按照分层随机抽样来处理,而且事后分层要求层权是已知的,但是当层权未知从而利用样本来估计层权时,就会产生偏差,事后分层不见得比简单随机抽样产生更精确的结果。
(2)事后分层比按比例分配产生更精确的结果,这个说法是错误的。从事后分层得到的估计量的方差的估计值可以看出,它的第一项就是按照比例分层抽样得到的估计量方差的估计值,公式中的第二项表示的是按事后分层时各层样本量与按照比例分层时各层样本量发生偏差所引起的方差的增量。
(3)事后分层的最优分配产生更精确的结果,这种说法是错误的。事后分层在样本量足够大的条件下是与比例分层相当的,但是在一般条件下,事后分层的精度仍然低于比例分层的,那么事后分层的精度也会高于最优分配的精度。
(4)在抽样时不能得到分层变量,这个说法是正确的。事后分层在抽样时,是利用简单随机抽样的方法,在抽样时不涉及按照变量进行分层,至于按变量进行分层,是在抽样完成后,然后根据具体的变量来对样本进行分层。
(5)它的估计量的方差与真正按照比例分层随机抽样的方差差不多,只有在样本量足够大的条件下才成立。在样本量足够大的条件下,从事后分层的方差的计算公式可以看出,它的第二项会趋于0,这时事后分层的估计量的方差和分层随机抽样的方差差不多。
3.8 解:(1) 根据简单随机抽样的公式,登记原始凭证的差错率的估计值为p?3? 1003%,在考虑到f?0,N?N?1的条件下,登记的原始凭证的差错率的估计量的方差近似
为
1?f21?fN1S?P?1?P??P?1?P? nnN?1n11?4则估计量的方差的估计值为v?p??p?1?p?,计算得v?p??p?1?p??2.91?10,
nn V?p??则原始凭证的差错率的估计的标准差为s?p??v?p??1.71?10?2。
(2)这里,每个层的层权是事先知道的,那么利用事后分层来计算登记原始凭证的差错率的估计值为ppst??Whph?2.68%,在这里p1?h?121?2.33%,p2?3.51%。 431?f n1122vp?Ws?1?Ws,在不考虑有限校正系数的条件下,又可以写为?pst?n ?hhn2??h?h利用事后分层得到的原始凭证的差错率的估计量的方差的估计值为vppst????Whnhn1ph?1?ph??2??1?Wh?hph?1?ph?,其中W1?0.7,W2?0.3, nh?1nnh?1n1?43,n2?57,可以得到v?ppst??2.6895?10?4,则相应的标准差为s?ppst??
1.64?10?2。
10
223.9 解:(1)所有可能的样本的数量为C3?C3?9,所有的样本如下:
??3,0?,?5,3?,?8,6?,?15,9??,??3,0?,?5,3?,?8,6?,?25,15??,??3,0?,?5,3?,?25,15?,?15,9??,
??3,0?,?10,6?,?8,6?,?15,9??,??3,0?,?10,6?,?8,6?,?25,15??,??3,0?,?10,6?,?25,15?,?15,9??,
??5,3?,?10,6?,?8,6?,?15,9??,??5,3?,?10,6?,?8,6?,?25,15??,??5,3?,?10,6?,?25,15?,?15,9??
(2)我们用9个样本中的一个来计算,假定抽中的样本为
_ ??5,3?,?10,6?,?8,6?,?25,15??。
首先按照分别比估计来估计Y,首先可以得到分层后的辅助变量的总体均值分别为
X1?6,X2?16。在这个样本中,经计算得到x1?7.5,x2?16.5,y1?4.5,y2?10.5,R1?0.6,R2?0.64,而且W1?W2?0.5,则根据分别比估计可得Y的估计值为yRS?
^^________?WhyRh??WhRhXh?6.891。
__?_利用联合比估计时,首先计算得到辅助变量的总体均值X?11,然后利用样本得到的主要变量和辅助变量的样本均值为yst?7.5,xst?12,Rc?7.512?0.625,则利用联合比估计得到的Y的估计值为yRC?RcX?6.875。
在计算分别比估计和联合比估计的偏差,这里的方法是利用所有可能的样本,然后计算出比估计和联合估计的估计值,按照与上面相同的计算方法,计算得到其他样本时比估计和联合估计值(按照上面的样本的排列顺序)为:
__?___?yRS1?6.342,yRC1?6.387,yRS2?6.216,yRC2?6.439,yRS3?5.925,yRC3?6.188, yRS4?6.602,yRC4?6.243,yRS5?6.476yRC5?6.457,yRS6?6.185,yRC6?6.227, yRS7?7.017,yRC7?6.947,yRS8?6.6,yRC8?6.6,yRS9?6.891,yRC9?6.875
__________________?_?19_?_?19_分别计算可得E?yRS???yRSh?6.473,E?yRC???yRCh?6.485,而且可以
??9h?1??9h?1_?_??_?计算得到var?yRC??0.076,var?yRS??0.121。总体的实际均值为Y?39/6?6.5。则
?????_?_?_?分别比估计和联合比估计的偏差分别为E?yRS??Y?6.473?6.5??0.027,E?yRC??
????Y?6.485?6.5??0.015。
11
_?_?_?_?_E?yRC??Y?0.015?E?yRS??Y?0.027,所以联合比估计的偏差比分别比估计????的偏差要小。
接下来计算分别比估计和联合比估计的均方误差。在这里样本量很小,不可以利用教材中的近似公式。
?_??_???_?_?MSE?yRS??var?yRS???E?yRS??Y??0.121?0.000729?0.122
????????????????MSE?yRC??var?yRC???E?yRC??Y??0.076?0.00025?0.0763
????????____22?_??_?MSE?yRC??0.0763?MSE?yRS??0.122
????(3)从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的偏差和均方
误差都要小于分别比估计,也就是说在本题中,联合比估计要比分别估计好。在本题中,各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。
第4章
4.1解:由题意知,平均每户家庭的订报份数为:
y???yij/nM?(19+20+16+20)/10/4=1.875?2(份)
i?1j?1nM总的订报份数为:
??N?y?4000?1.875?7500(份) YMns?(yi?y)2=0.358 333 ?n?1i?12b所以估计方差为:
v(y)?1?f21?0.01sb??0.358333=0.008 869 nM4?10?)?N2M2v(y)?N2M21?fs2=141 900 v(YbnM4.2解: 单位 总人数 赞成人数 赞成比例yi 12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 51 62 49 73 101 48 65 49 73 61 58 52 65 49 55 42 53 40 45 63 31 38 30 54 45 51 29 46 37 42 0.823 529 0.854 839 0.816 327 0.616 438 0.623 762 0.645 833 0.584 615 0.612 245 0.739 726 0.737 705 0.879 31 0.557 692 0.707 692 0.755 102 0.763 636 (1) m??Mi?1nin=60.733 33
所以该系统同意这一改革人数的比例为:
?yy?=70.91%
m其估计的方差为:
v(y)?N21?f2nM0?(yi?1ni?y)2n?1?N21?fn(mN)2?(yi?1ni?y)2n?1?1?fnm2?(yi?1ni?y)2n?1 =0.001 37 所以其估计的标准误为:
s(y)?v(y)=3.7%
(2) s(y)?v(y)=8%
1?fv(y)?N2nM02n?(y?y)ii?1n2n?121?f?Nn(mN)22?(y?y)ii?1n2n?1
?1?fnm2?(y?y)ii?1n?1=0.006 4
得n=6.2,所以应抽取7个单位作样本。 4.3解:该集团办公费用总支出额为:
13
nY??Nn?yi=48/10×(83+62+?+67+80)=3 532.8(百元)
i?1nyi?y)2v(Y?)?N21?f?(i?1nn?1=72 765.44
s(Y?)?v(Y?)=269.750 7(百元) 所以其置信度为95%的置信区间为:[3 004.089 , 4 061.511]
?nMi4.4解:m?i?1n=52.3
所以整个林区树的平均高度为:
?y?ym=5.9(米)
其估计的方差为:
n2n2i?y)v(y)?N21?f?(yi?y)i?1f?(yi?1nM20n?1?N21?n(mN)2n?1n2?1?f?(yi?y)i?1nm2n?1=0.06
所以其估计的标准误为:
s(y)?v(y)=0.246(米)
其95%的置信区间为:[5.42 ,6.38] 4.5解:拍摄过艺术照的女生比例为:
1nmy?nm??yij=9/30=30% i?1j?1其估计的方差为:
v(y)?1?f12f1ns?(1?f2)21nms2=0.005 891 其估计的标准差为:
s(y)?v(y)=7.68%
4.6 解:ms2c1opt?sc?18810?1.88?2 u2316.8114
其中,s2?s2u1?s22M?3262?18826?100385.33 所以最优的样本学生数为2。 代入
c?c0?c1n?c2nm得到
nopt?20
所以最优的样本宿舍数为20。 4.7解:(1)简单估计: 居民总的锻炼时间为:
?mY?N?nMiiunyij=1 650
i?1mi?j?1居民平均每天用于锻炼的时间为:
y?Y?uM=3.3(即33分钟)
0v(y)?1?M2?N2(1?f1)?n(Y?Y?2Ni?u)??nM2if1(1?f2)0?ns2?2ii?1ni?1m?i? =0.163 421
其估计的标准差为:
s(y)?v(y)=0.404 254
(2)比率估计:
居民总的锻炼时间为:
?nMiijY?i?1m?miyij?1R?M0n
?Mii?1居民平均每天用于锻炼的时间为:
?nMiY?i?1m?miyijy?Rij?1M?n=3.95(即39.5分钟)
0?Mii?1v(y)?1??N2(1?f?n1)(Y??Y?2N?nM2if1(1?f2)M2s2?2i0?niu)?i?1ni?1m?i? =0.071 509
其估计的标准差为:
s(y)?v(y)=0.267 411
15
(3)简单估计下的相对误差为:
r=0.404 254/3.3=12.25% 比估计下的相对误差为:
r=0.267 411/3.95=6.77% 所以比估计的估计效果好。
第5章
5.1解:(1)代码法列出下表: PUS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Zi 0.000 110 0.018 556 0.062 999 0.078 216 0.075 245 0.073 983 0.076 580 0.038 981 0.040 772 0.022 876 0.003 721 0.024 971 0.040 654 0.014 804 0.005 577 0.070 784 0.069 635 0.034 650 0.069 492 0.036 590 0.033 853 0.016 959 0.009 066 0.021 795 0.059 185 Zi ×1 000 000 110 18 556 62 999 78 216 75 245 73 983 76 580 38 981 40 772 22 876 3 721 24 971 40 654 14 804 5 577 70 784 69 635 34 650 69 492 36 590 33 853 16 959 9 066 21 795 59 185 累计 Zi ×1 000 000 110 18 666 81 665 159 881 235 126 309 109 385 689 424670 465 442 488 318 492 039 517 010 557 664 572 468 578 045 648 829 718 464 753 114 822 606 859 196 893 049 910 008 919 074 940 869 1 000 054 代码 1~110 111~18 666 18 667~81 665 81 666~159 881 159 882~235 126 235 127~309 109 309 110~385 689 385 690~424 670 424 671~465 442 465 443~488 318 488 319~492 039 492 040~517 010 517 011~557 664 557 665~572 468 572 469~578 045 578 046~648 829 648 830~718 464 718 465~753 114 753 115~822 606 822 607~859 196 859 197~893 049 893 050~910 008 910 009~919 074 919 075~940 869 940 870~1 000 054
表中,Zi不是整数,乘以1 000 000使其变为整数,这样就可以赋予每个单元与其相等的代码数。
先在[1,1 000 054]中产生第一个随机数为825 011,其对应的单元为20号,则得到第一个入样单元20;
16
把单元20去掉,剩余的24个单元,累计代码数为1 000 054-36 590=963 464,在[1,963464]中产生第二个随机数为456 731,得到第二个入样单元9;
再把单元9去掉,剩余的23个单元,累计代码数为963 464-40 772=922 692,在[1, 922 692]中产生第三个随机数为857 190,得到第三个入样单元24;
依此类推,直至抽出所需的样本。
最后抽得的10个入样单元为20,9,24,3,4,25,21,16,7,5。
(2)“拉希里法”。
*令Z?max?Zi??0.078216,N?25,在[1,25]和[1, 0.078 216]中分别产生随
机数?6, 0.021313?,Z6?0.073983?0.021313,第6号单元入样;
把单元6去掉,剩余的24个单元,max?Zi?仍旧等于0.078 216,在[1,24]和[1, 0.078 216]中分别产生随机数10, 0.031543,Z10?0.022876<0.031543,第10号单元不入样,重新抽取随机数;
依此类推,直至抽出所需的样本。
最后抽得的10个入样单元为6,9,18,4,1,5,19,21,16,13。
5.2.解:首先计算出各PSU单元的入样概率,M0?25。
PSU 1 2 3 4 5 由?ij???Mi 5 4 8 5 3 Zi yij 3,5,4,6,2 7,4,7,7 7,2,9,4,5,3,2,6 2,5,3,6,8 9,7,5 可得所有可能样本的?ij:
ti 20 25 38 24 21 0.2 0.16 0.32 0.2 0.12 4ZiZj(1?Zi?Zj)Zi(1?2Zi)(1?2Zj)(1??)1?2Zi?1iN样本 1,2 1,3 1,4 1,5 2,3 2,4 2,5 3,4 3,5 ?ij 0.068 091 0.192 926 0.090 434 0.048 549 0.147 531 0.068 091 0.036 286 0.192 926 0.106 617 ? Y128.125 109.375 110 137.5 137.5 138.125 165.625 119.375 146.875 17
4,5 0.048 549 ^nn147.5 霍维茨-汤普森估计量的方差为V(Y)?
5.3解:代码法列出下表: i 1 2 3 4 5 6 7 8 9 10 ?i?j??ijyiyj2(?)?3787.572。 ???ij?i?ji?1j?iZi 0.104 0.192 0.138 0.062 0.052 0.147 0.089 0.038 0.057 0.121 Zi ×1 000 累计Zi ×1 000 104 192 138 62 52 147 89 38 57 121 104 296 434 496 548 695 784 822 879 1 000 代码 1~104 105~296 297~434 435~496 497~548 549~695 696~784 785~822 823~879 880~1 000
表中,Zi不是整数,乘以1 000使其变为整数,这样就可以赋予每个单元与其相等的代码数。
在[1,1 000]之间产生三个随机数659,722,498,则它们所对应的第6,7,5号单元被抽中,即得到的n=3的PPS样本包括单元6、单元7和单元5。
5.4解:由题意知n=3, 总体总量的估计为:
?YHH13yi1320120290???(??)?2217.00623i?1Zi30.1380.0620.121
总量估计的标准差为:
3yi?21?)?v(Y?)?s(Y(?YHH)?HHHH3?(3?1)i?1Zi?((320120290-2217.0062)2+(-2217.0062)2+(-2217.0062)2)/60.1380.0620.121?142.5441
5.5解:由题意知n?2,M0?23,Zi?
Mi,每个单元的入样概率?i?nZi
。M018
i 1 2 3 4 5 6
Mi 2 9 3 2 1 6 Zi 0.086 956 52 0.391 304 35 0.130 434 78 0.086 956 52 0.043 478 26 0.260 869 57 ?i 0.173 913 0.782 609 0.260 87 0.173 913 0.086 957 0.521 739 所有可能的样本及每对单元入样概率?ij为: 样本 1,2 1,3 1,4 1,5 1,6 2,3 2,4 2,5 2,6 3,4 3,5 3,6 4,5 4,6 5,6 ?ij 0.104 607 0.015 383 0.009 686 0.004 612 0.039 624 0.160 757 0.104 607 0.051 266 0.361 371 0.015 383 0.007 346 0.062 0.004 612 0.039 624 0.019 12 ? YHT65.805 56 86.25 63.25 109.25 82.41 667 71.555 56 48.555 56 94.555 56 67.722 22 69 115 88.166 67 92 65.166 67 111.166 7
以实例验证式(5.5)、式(5.6):
设yi分别为7,20,12,4,6,22,当入样单元为单元1和单元2时,由式(5.5)可
??得YHH1720?(?)?65.80556。若由式(5.30)进行计算,20.086956520.39130435??(有YHT720?)?65.80556
0.1739130.782609。
二者的计算结果是一致的。当入样单元为其他情况时,计算过程同上,二者结果仍保持
一致,从而验证了式(5.5)。
61?)??Z(Yi?Y)2?258.0278。若直接进行计算,有由式(5.6)可得V(YHHi2i?1Zi 19
?)???((Y??Y)2?)?170.7528。V(YHTiiji?1j?inn
二者计算结果不一致,可见式(5.6)不适用于πPS抽样的情况。
5.6 解:(1) 简单随机抽样简单估计量为:10,9,5,2,4。
?)??10?9?5?2?4?6 E(Y5均方误差为:
?)?1?[(10?6)2?(9?6)2?(5?6)2?(2?6)2?(4?6)2]?3.033 15MSE(Y5
(2) 简单随机抽样比估计为:
①联合比估计:
1?(10?9?5?2?4)55R??
1?(7?5?3?1?2)35联合比估计估计量为:
352515510,,,,,因此 33333?)?1?(7?5?5?5?3?5?1?5?2?5)?6 E(YR533333均方误差为:
?)?1?[(35?6)2?(25?6)2?(15?6)2?(5?6)2?(10?6)2]?3.590 11MSE(YR533333②分别比估计:
1109524r??(????)?1.779 048
575312分别比估计估计量为:12.453 33,8.895 238,5.337 143,1.779 048,3.558 095,因此,
?)?1?(12.453 33?8.895 238?5.337 143?1.779 048?3.558 095)?6.404 571E(Yr5均方误差为:
?)?MSE(Yr
1?[(12.453 33?6.404 571)2???(3.558 095?6.404 571)2]?3.498 2915 20
?的刀切法方差估计为: Rk1??=??Rv1RR?j????241??0.009 727 =R?j??2?1.534 58?10-7
k?k?1?j?14?4?1?j?1v1k2?R??=k?k?1??R?j?R?2= 1j?1??4?4?1??4R?2j?0.009 723 187j?1??
?1.534 63?10-7
第10章
10.6解:该总体真实均值为
Y?95%?45.4?5%?59.0?46.08
(1)对于一个在60%层中抽样的方法:
bias=40.7-46.08=-5.38
V(y)?1002(1?p)pn?40.7?(100?40.7)2414n?n
MSE(y)?V(y)+bias2?2414n?28.94 (2)当回答率为60%时,由(1)有
MSE(y)?28.94?5
即均方误差的根不可能达到5%。 当回答率为80%时
bias=43.5-46.08=-5.38
当回答率高于80%时
| bias |<2.58
而对于所有的回答率方法均有
V(y)?2500n 因而当采用80%或更高回答率时
36
MSE(y)?2500?2.582n 只要当n稍稍大于100,便有
MSE(y)?5
(3)采用90%方法时
bias=44.8-46.08=-1.28
MSE(y)?V(y)+bias2?44.8?55.2n?(?1.28)2?2得n=1 047 采用95%方法时
bias=45.4-46.08=-0.68
MSE(y)?V(y)+bias2?45.4?54.6n?(?0.68)2?2得n=701
10.7解:由上题(3)知,当回答率为90%时n=1 047,则
总费用=5×1 047=5 235
当回答率为95%时,n=701,则
总费用= 701?90?%?5?701?5?%?20?4058 37
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典综合文库《抽样技术》第四版习题答案在线全文阅读。
相关推荐: