要求,评价估计量的好坏可以有各种各样的标准。这里只介绍两种最常用的标准。
(1)无偏估计
根据样本推得的估计值??可能与未知参数的真值?不同,然而,如果有一序列抽样构成各个估计,很合理地会要求这些估计的期望值与未知参数的真值相等。它的直观意义是样本估计量的数值在参数的真值附近摆动,而无系统误差。
???成立,则称估计??为参数?的无偏估计。 定义1 如果E?(2)有效估计
对总体的某一参数?的无偏估计量往往不只一个,而且无偏性仅仅表明??所有可能取的值按概率平均等于?,可能它取的值大部分与?相差很大。为保证??的取值能集中于?附近,自然要求??的方差越小越好。
?都是?的无偏估计,如果??的方差小于??的方差,则称??定义2 设??1和?2121?有效的估计量。是比?如果在?的一切无偏估计中,则称??为??的方差达到最小,2?的有效估计。
实际上,样本均值是总体期望值的有效估计量。
一个无偏有效估计量取的值是在可能范围内最密集于真值?附近的,也就是说,它以最大的概率保证这估计的观测值在未知参数的真值?附近摆动。
§3 假设检验
2 我们常常会假设总体期望值为?0,总体方差不大于?0,总体服从某种分布,
上述种种假设是否成立呢?还有某种品种是否比其他品种更优?某种药品是否比其他药品更有效?等等。这些问题需通过概率计算,采用假设检验的方法,才能做出正确的推断。 3.1 假设检验的基本方法
(1)提出待检验的假设H0。它可能有以下几个来源:① 依据以往的经验或某些实验的结果;② 依据某种理论或某种模型;③ 根据事先所做的某种规定。
(2)选择检验假设H0的统计量,并确定其分布,再根据样本观测值计算出
该统计量的值。
?(0???1)(3)确定拒绝域并作出判断。在给定的检验水平(或显著性水平)下,查所选统计量服从的分布表(一般数理统计书后都附有该表),求出临界值,然后确定检验假设H0的拒绝域并根据小概率事件在一次观测中不可能发生的原理做出判断。
3.2 一个正态总体的假设检验
本段假定(X1,X2,?,Xn)是来自正态总体N(?,?2)中的一个样本。以下给出实际问题中常用的两种检验假设方法。
(1)未知方差?2,检验假设H0:???0(?0为已知) ① 提出待检假设H0:???0。 ② 选取样本(X1,X2,?,Xn)的统计量:
T?X??0S/n~t(n?1)。
其中S是样本标准差,再根据样本观测值计算出统计量T的值。
③ 查表得临界值:t?/2?t?/2(n?1)。然后根据P{|T|?t?/2}??下结论:若
|T|?t?/2,则否定H0;否则,一般情况下接受H0。
凡涉及到t分布的假设检验通常称之为t检验。
22(2)未知期望?,检验假设H0:?2??0(?0为已知) 2① 提出待检假设H0:?2??0。
② 选取样本(X1,X2,?,Xn)的统计量:
??2(n?1)S22?0~?2(n?1)。
再根据样本观测值计算出统计量?2的值。
222③ 查表得临界值:?????(n?1)。然后根据P{?2???}??下结论:若2,则否定H0;否则,一般情况下接受H0。 ?2???凡涉及到?2分布的假设检验通常称之为?2检验。
例1 机器包装食盐,假设每袋盐的净重服从正态分布,规定每袋标准重量为500g,标准差不能超过10g。某天开工后,为检查机器工作是否正常,从装好的食盐中随机抽取9袋,测其净重(单位:g)为
497,507,510,475,484,488,524,491,515
问这天包装机工作是否正常?
解 先检验假设H0:??500。选取统计量
T?X?500,
S/9根据样本观测值计算得:|T|?499?500?0.187。
16.03/9取检验水平??0.05,查表得临界值:t0.025(9?1)?2.306。
由于|T|?0.187?2.306,故接受H0,即可认为平均每袋食盐净重为500g,亦即机器包装没有产生系统误差。
再检验假设H1:?2?102。选取统计量
(9?1)S2??, 2102(9?1)?16.032?20.56。 根据样本观测值计算得:??10222查表得临界值:?0.05(9?1)?15.5。由于?2?20.56?15.5,故拒绝H0,可认
为其方差超过102。即包装机虽然没有系统误差,但是不够稳定。因此认为该天包装机工作不正常。
3.3 两个正态总体的假设检验
样本(X1,X2,?,Xm)来自正态总体N(?1,?12),样本(Y1,Y2,?,Yn)来自正态总
1n1n1n22体N(?2,?)。且设X??Xi,S1?(Xi?X),Y??Yi,?mi?1m?1i?1ni?1221nS?(Yi?Y)2。 ?n?1i?122以下给出实际问题中常用的三种检验假设方法。
2(1)未知期望?1,?2,检验假设H0:?12??2 2① 建立待检假设H0:?12??2。
22② 若S12?S2,则选取统计量:F?S12/S2~F(m?1,n?1),临界值:2;否则选取统计量:F?S2F?/2?F?1,n?1)/S12~F(n?1,m?1),临界值:?/(2mF?/2?F?/2(n?1,m?1)。再根据样本观测值计算出统计量F的值。
③根据P{F?F?/2}??/2下结论:若F?F?/2,则否定H0;否则,一般情况下接受H0。
凡涉及到F分布的假设检验通常称之为F检验。
2(2)未知期望?1,?2,检验假设H0:?12??2 2① 建立待检假设H0:?12??2。
2②选取统计量:F?S12/S2~F(m?1,n?1),再根据样本观测值计算出统计
量F的值。
③临界值F??F?(m?1,n?1)。根据P{F?F?}??下结论:若F?F?,则否定H0;否则,一般情况下接受H0。
22(3)未知方差?12,?2,但?12??2,检验假设H0:?1??2
① 建立待检假设H0:?1??2。 ②选取统计量:T?X?Y~t(m?n?2),其中 W2(m?1)S12?(n?1)S2W?m?n?211?, mn2)/n。再根据样本观测值计算出统计量T的特别地,当m?n时,W?(S12?S2值。
③临界值t?/2?t?/2(m?n?2)。根据P{|T|?t?/2}??下结论:若|T|?t?/2,则否定H0;否则,一般情况下接受H0。
注意:作此t检验时,实际问题中的方差一般未知,因此要先检验假设
2。 H0:?12??2例2 从两处煤矿各抽样数次,分析其含灰率(%)如下: 甲矿:24.3, 20.8, 23.7, 21.3, 17.4 乙矿:18.2, 16.9, 20.2, 16.7
假定各煤矿含灰率都服从正态分布,问甲、乙两煤矿的含灰率有无显著差异?
解 检验两个正态总体的期望值是否相等,需要假定它们的方差相等,因此
2先建立待检假设H0:?12??2。
22由于s12?7.05?s2。 ?2.593,因此选取统计量:F?S12/S2根据样本观测值计算,得
F?7.05/2.593?2.894?F0.025(5?1,4?1)?15.1=2.894,
所以可认为两煤矿的含灰率的方差相等。
然后再检验假设H1:?1??2。选取统计量:
T?X?Y(5?1)S?(4?1)S5?4?2212211?54,
根据样本观测值计算,得|T|?2.245?t0.025(5?4?2)?2.365。
因而认为两煤矿的含灰率无显著差异。但由于2.245与临界值2.365比较接近,为稳妥计,最好再抽一次样,进行一次计算。
3.4 分布律的假设检验
在参数型统计问题中,我们总假定总体分布为某种类型的分布。但是在实际问题中,支持这个假定的理由有时并不十分充分,这个假定本身需要我们根据样本来检验。这就涉及到分布律的假设检验问题。分布律的假设检验的原理是皮尔逊(K.Pearson)平方和准则。
数理统计方法
数理统计的任务是以概率论为基础,根据试验的数据,对研究对象的客观规律性作出合理的估计与推断。
§1 数理统计的基本概念
在数理统计中,我们把研究对象的全体称为总体,而把组成总体的每个基本单元称为个体。要了解总体的规律性,必须对其中的个体进行统计、观测,一是对全部个体逐一进行观测,这样做当然对总体有充分的了解,但实际上这种方法往往是行不通的,而且也很不经济;二是随机抽样观测,即从总体X中随机抽取n个个体(X1,X2,?,Xn)进行观测,然后根据样本(X1,X2,?,Xn)来推断总体的性质或规律性,这在实际中是常用的方法。
由于样本是随机抽样的,可以认为来自总体X中一个样本(X1,X2,?,Xn)是一组相互独立且与总体X同分布的随机变量。n称为样本容量,样本
(X1,X2,?,Xn)的观测值记为(x1,x2,?,xn),样本(X1,X2,?,Xn)的不含任何未知参数的函数f(X1,X2,?,Xn)称为统计量。下述统计量
1n1n1n22X??Xi,S?(Xi?X),S?(Xi?X)2 ??n?1i?1ni?1n?1i?1分别称为样本均值、样本方差、样本标准差。
根据样本的观测值(x1,x2,?,xn),可以绘出样本的频率直方图和累积频率直方图,方法如下:
,]b等分为m个① 适当选取a?min{x1,x2,?,xn},将[ab?max{x1,x2,?,xn},
小区间,称d?(b?a)/m为组距;
② 计算x1,x2,?,xn在各个小区间出现的频率pi?mi/n,i?1,2,?,m; ③ 计算样本的频率函数p(x)和累积频率函数F(x):
?0,x?a,?p,a?x?a?d,?1??p,a?d?x?a?2d,p(x)??2
????pm,a?(m?1)d?x?a?md,???0,x?b?a?md,?0,x?a,?p,a?x?a?d,?1??p1?p2,a?d?x?a?2d,F(x)??
????p1?p2???pm,a?(m?1)d?x?a?md,???1,x?b?a?md. ④ 画出样本的频率函数p(x)和累积频率函数F(x)的图形可以得到样本的频率直方图和累积频率直方图。
根据样本的频率直方图和累积频率直方图可以近似描绘出总体的分布密度函数和分布函数曲线。
§2 参数估计
在对实际问题进行数学建模时,我们常常会遇到下列问题:在确定了问题涉及的关键量和发现了制约问题的基本规律或部分规律之后,可以得到刻画这些关键量之间关系的数学关系式。但是在这些数学关系式中尚包含若干未知参数。我们不能直接从这些关系式中得到这些关键量的定量变化规律,但实际问题往往又提供了某些表征关键量变化的信息(如实验数据等)。如果利用这些信息结合关键量的表达式来估计未知参数,那么实际问题能够得到解决。
2.1 参数估计的方法
参数估计的方法比较多。一般情况下,参数估计问题可归结为求一个函数的极值点问题。下面主要介绍最小二乘法和极大似然法。
(1)最小二乘法
设y?f(x;?),其中x是自变量(或自变量向量),?是未知参数,y是x的函数,x和y都是可观测的。由于?是未知的,因此要对?进行估计。
设(x1,y1),(x2,y2),?,(xn,yn)是n组观测值,最小二乘法的基本思想就是求??,使函数 的一个估计量?Q(?)??[yi?f(xi;?)]2
i?1n取最小值,即
?)?minQ(?)?minQ(??[y?f(x;?)]iii?1n2,
?为参数?的最小二乘估计值。 称这样求得的?例1 某种医用薄膜有允许一种物质的分子穿透它从高浓度的溶液向低浓度溶液扩散的功能,在试制时需测定薄膜被这种分子穿透的能力。测定方法如下:用面积为s的薄膜将容器分成A,B两部分,体积分别为va和vb,在两部分中分别注满该物质的两种不同浓度的溶液。此时该物质分子就会从高浓度溶液穿透薄膜向低浓度溶液中扩散。通过单位面积膜分子扩散的速度与两侧溶液的浓度差成正比,比例系数k表征了薄膜被该物质分子穿透的能力,称为渗透率。定时测量容器中某一侧的溶液浓度值以确定k的数值。试建立该问题的数学模型。 解 如果va?vb?100cm3,s?10cm2,且对容器的B部分在时刻ti的溶液浓度
ci进行测试,结果如下:
ti(s):
100 200 300 400 500 600 700 800 900 1000
ci(10?3mg/cm3): 4.54 4.99 5.35 5.65 5.90 6.10 6.26 6.39 6.50 6.59 试确定k的值。
假定薄膜两侧的溶液始终是均匀的,即在任何时刻膜两侧的每一处溶液的浓度都是相同的,且薄膜是双向同性的,即物质从薄膜任一侧向另一侧渗透的性能是相同的,设时刻t时膜两侧溶液的浓度分别为ca(t)和cb(t),初始时刻膜两侧溶液的浓度分别为?a和?b,单位均为10?3mg/cm3,又设B侧在ti时刻测得的浓度为ci。
考察时段[t,t??t]膜两侧容器中该物质质量的变化。在容器的A侧,该时段
内物质质量的增加为vaca(t??t)?vaca(t);另一方面从B侧渗透至A侧的该物质质量为sk(cb?ca)?t。由质量守恒定律,有
vaca(t??t)?vaca(t)?sk(cb?ca)?t, 两边除以?t,令?t?0,得
dcask (2-1) ?(cb?ca),
dtva同理有
dcbsk (2-2) ?(ca?cb)。
dtvb由(2-2)-(2-1)得
d(cb-ca)11??sk(?)(cb?ca)。 dtvavb 由于ca(0)??a,cb(0)??b,所以
cb-ca?(?b-?a)exp{?sk(11 ?)t}。 (2-3)
vavb 由质量守恒定律,有
vaca(t)+vbcb(t)=va?a+vb?b。 (2-4)
联立(2-3),(2-4)式可得:
cb??ava??bvbva?vb?va(?b??a)11exp{?sk(?)t}。
va?vbvavb至此,问题归结为利用cb在时刻ti的测量数据ci(i?1,2,?,n)来估计k,?a,?b,根据使cb(ti)与ci的误差平方和最小的原则来求k,?a,?b的估计值。对应的数学模型为求函数
Q(k,?a,?b)??[cb(ti)?ci]2
i?1n的最小值。
令
x??ava??bvbva?vb,y?va(?b??a),
va?vb则参数估计问题可转化为求函数
Q(k,x,y)??[x?yexp{?sk(i?1n11?)ti}?ci]2 vavb的最小值点(k,x,y)。将已知测试数据代入,得极小化的函数
Q(k,x,y)??[x?ye?kti/5?ci]2。
i?1nc利用MATLAB软件中的fmins函数求得k?0.01012(,
x?7(10?3mg/cm3),y??3(10?3mg/cm3)进一步求得?a?10(10?3mg/cm3),
?b?4(10?3mg/cm3)。
(2)极大似然法
设总体?的概率分布为p(x;?)(当?为连续型时,p(x;?)为?的分布密度;当?为离散型时,p(x;?)为?的概率分布,即,P{??x}?p(x;?)),其中?是未知参数,它在一定范围内取值。x1,x2,?,xn是总体的样本观测值。 令
L(?)??p(xi;?),
i?1n称L(?)为似然函数。极大似然法的基本思想是:在?的取值范围内,挑选使似
?然函数L(?)取得最大值的?作为参数?的估计值,由于L(?)与lnL(?)同时达到最大值,故只需求lnL(?)的最大值点即可:
?)?max{lnL(?)}。 lnL(??用这种方法求得的?称为参数?的极大似然估计值。 2.2 评价估计量的优劣标准
在对参数进行估计时,人们总希望估计量??能代表真实参数?。根据不同的
首先做假设H0:F(x)?F0(x)。其中F(x)为总体?的分布函数,未知;F0(x)为某已知分布函数。
其次设(x1,x2,?,xn)是总体的一个样本观测值,用分点t1?t2???tk?1将实数域分成k个区间,用mi表示样本观测值落入第i个区间的频数。
记
p1?P{??t1}?F0(t1),
p2?P{t1???t2}?F0(t2)?F0(t1),
? ? ? ? ? ?
pk?1?P{tk?2???tk?1}?F0(tk?1)?F0(tk?2), pk?P{??tk?1}?1?F0(tk?1)。 选取统计量:
(mi?npi)2???~?2(k?1?r),(n??)
npii?12k其中r为F0(x)中需要估计的参数个数。根据样本观测值计算出统计量?2的值。
2222然后查表得临界值:再根据P{?2???若?2???,?????(k?1?r)。}??下结论:
则否定H0;否则,一般情况下接受H0。
例3 遗传学家孟德尔根据对豌豆的观察,发现豌豆的两对特征——圆与皱、黄与绿所出现的四种组合有下述的频数:
组合: 圆黄 皱黄 圆绿 皱绿 n mi: 315 101 108 32 556
根据他的遗传学理论,孟德尔认为豌豆的上述四种组合应有理论上的概率如下:
组合: 圆黄 皱黄 圆绿 皱绿 和 pi: 9/16 3/16 3/16 1/16 1 试用皮尔逊平方和准则来检验实际观测数据是否与孟德尔的理论相符。
解 首先建立待检假设H0:p1?9/16,p2?3/16,p3?3/16,p4?1/16。
其次选取统计量:
(mi?556pi)2???~?2(4?1?0),
556pii?124再根据样本观测值计算得?2?0.47。
2然后取检验水平??0.05,查表得临界值:?0.05(4?1?0)?7.81。
因为?2?0.47?7.81,故接受H0。所以在显著性水平0.05下,认为实际数据与孟德尔的遗传理论相符。
§4 方差分析
用不同的生产方法生产同一种产品,比较各种生产方法对产品的影响是人们经常遇到的问题。为此,需要找出对产品有显著影响的因素。方差分析就是鉴别各因素效应的一种有效的统计方法。它是在本世纪20年代由英国统计学家费希尔(R.A.Fisher)首先使用到农业试验上去的。后来发现这种方法的应用范围十分广阔,可以成功的应用在试验工作的很多方面。
4.1 单因素方差分析
如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;若试验中变化的因素多于一个,则称为双因素或者多因素试验。单因素试验中,若只有两个水平,就是以前讲过的两个总体的比较问题,超过两个水平的时候,也就是需要好多个总体进行比较,这时,方差分析是一种有效的方法。
将试验的变异因素A分成r个水平A1,A2,?,Ar,对每一个水平进行重复试验,列出试验结果记录表(表2-1):
表2-1
因素
试验结果
行平均值
A1 X11 X12 X22
?
? ?
?
X1n1 X2n1
?
X1? X2?
?
A2
?
X21
?
Ar Xr1 Xr2
?
Xrnr Xr?
其中Xij表示第i个因素水平进行第j次试验的结果。 (1)方差分析的假设前提
① 对变异因素的某一个水平,比如第i个水平,进行试验,得到观察结果
Xi1,Xi2,?,Xini,看作是从正态总体N(?i,?2)中取出的一个容量为ni的样本。而且?i,?2未知。
②对于表示r个水平的r个正态总体的方差认为都是相等的。 ③从不同总体中取出的各个个体是相互独立的,即各Xij相互独立。 (2)统计假设
如果要检验因素的各个水平对试验结果没有显著影响,则试验的全部结果
Xij应来自同一正态总体。因此,提出一项统计假设:所有的Xij都取自同一正态总体N(?,?2)。
待检假设为H0:?1??2????r??。 (3)检验方法 记n?n1?n2???nr,
1rni总体均值:X???Xij,
ni?1j?11行均值:Xi??ni?Xj?1niij,
1rni总体均值:X???Xij,
ni?1j?1离差平方总和:ST???(Xij?X)2,
i?1j?1nirni组内平方和:SE???(Xij?Xi?)2,
i?1j?1rr组间平方和:SA??ni(Xi??X)2。
i?1选取样本统计量:F?SA/(r?1)~F(r?1,n?1),再根据样本观测值计算出
SE/(n?1)统计量F的值。在计算组内平方和SE时,可根据关系ST?SA?SE得到。
然后查表得临界值F??F?1),再根据P{F?F?}??下结论:若?(r?1,nF?F?,则否定H0;否则,一般情况下接受H0。
如果检验的结果是拒绝H0,自然希望进一步找出因素A取何种水平时效果最佳。通过比较行平均值的大小,选出行平均值最大的两种水平做检验。
例1 为了考察6种不同的农药的杀虫率有无显著差异,做了18次试验,得数据如表2-2:
表2-2
农药 1 2 3 4 5 6 87.4 90.5 56.2 55.0 92.0 76.2 杀 虫 率(%) 85.0 88.5 62.4 48.2 99.2 72.3 80.2 87.3 95.3 81.3 94.7 91.5 行平均值 84.20 90.26 59.30 51.60 94.50 76.27 现在n?18,r?6,X?80.12,ST?F?60.7。对于假设检验问题
4006.S?A85,计量3825.S81,。统181.04E?H0:?1??2????6??,
取显著性水平??0.01,查表得临界值F0.01(5,12)?5.06,易见50.7?5.06,因此拒绝H0,即认为这6种不同的农药的杀虫率有显著差异。
进一步,自然希望找出最优的农药,以便提高杀虫率。通过比较行平均的大小看出,第2号与第5号的农药较优,因此我们来检验假设
H1:?2??5。
选取统计量(n2?n5?4):
T25?统计量T25的观测值为
X2??X5?(S?S)/42225~t(4?4?2)。
T25?90.25?94.5??1.765。
(10.54?12.66)/4取显著性水平??0.05,查表得临界值t0.05(6)?2.447,易见|?1.765|?2.447,因此不能拒绝,即认为这两种农药的杀虫率无显著差异。
4.2 双因素方差分析
进行双因素方差分析的目的是要检验两个因素对试验结果有无影响。在试验中,对每一因素的每一水平都可取一个容量为nij的样本。双因素方差分析的假设前提同单因素方差分析。按nij?1(无重复试验,不考虑两因素间的交互作用)和nij?1(不能重复试验,考虑两因素间的交互作用)分为两种情形。
(1)无重复试验的双因素方差分析
将因素A分成r个水平,因素B分成s个水平。对A、B的每一个水平的一对组合(Ai,Bj)只进行一次试验,列出试验结果记录表(表2-3):
表2-3
因素B 因素A B1 X11 B2 X12 X22 ? ? ? Bs X1s 行平均值Xi? A1 X1? A2 ? X21 X2s X2? Ar 列平均值X?j Xr1 Xr2 ? ? Xrs Xr? X X?1 X?2 X?s 其中Xij表示因素A的第i个水平与因素B的第j个水平的一对组合(Ai,Bj)进行一次试验的结果。
记n?rs。
1rs1s1r均值:X???Xij,Xi???Xij,X?j??Xij;
ni?1j?1sj?1ri?1平方和:ST???(Xij?X),SE???(Xij?Xi??X?j?X)2,
2i?1j?1ri?1j?1srsrs SA?s?(Xi??X),SB?r?(X?j?X)2。
2i?1j?1平方和关系:ST?SE?SA?SB。
判断因素A的影响是否显著,就是要检验假设
H0A:?1j??2j????rj???j,j?1,2,?,s。
选取统计量:FA?(s?1)AS/ES~F?(r,s再根据?1,r(?P{AF??F(?r1,?(r若FA?F?,拒绝H0A;否则,接受H0A。 1?)s?(下结论:?判断因素B的影响是否显著,就是要检验假设
H0B:?i1??i2????ir??i?,i?1,2,?,r。
选取统计量:FB?(r?1)BS/ES~F?(s,s再根据?1,r(?P{BF??F(?s1,?(r若FB?F?,拒绝H0B;否则,接受H0B。 1?)s?(下结论:?例2 设4个工人操作3台机器各一天,日产量数据如表2-4:
表2-4
工人 机器 B1 50 53 52 51.67 B2 47 54 42 47.67 B3 47 57 41 48.33 B4 53 58 48 53 行平均值 49.25 55.5 45.75 50.17 A1 A2 A3 列平均值 问是否真正存在机器质量或工人技能之间的差别?
计算得:ST?317.65,SA?194.97,SB?59.67,SE?63.01。
因为FA?(4?1)SA/SE?9.283?F0.05(2,6)?5.14,所以机器质量之间的差别比较显著,由行平均值可看出,机器A2的日产量较高。
因为FB?(3?1)SB/SE?1.894?F0.05(3,6)?4.76,所以工人技能之间的差别不显著。
(2)重复试验的双因素方差分析
如果要考察两个因素A、B之间是否存在交互作用的影响,需要对两个因素各种水平的组合(Ai,Bj)进行重复试验,假设每一个组合都重复试验m(m?1)次(若是不等重复试验,残缺数据可按均值补齐以便于计算),列出试验结果记录表(表2-5):
表2-5
因素B 因素A B1 B2 ? ? ? ? Bs X1s1,X1s2,?,X1sm X2s1,X2s2,?,X2sm ? A1 X111,X112,?,X11m X121,X122,?,X12m X211,X212,?,X21m X221,X222,?,X22m ? ? A2 ? Ar Xr11,Xr12,?,Xr1m Xr21,Xr22,?,Xr2m ? Xrs1,Xrs2,?,Xrsm 其中Xijk表示因素A的第i个水平与因素B的第j个水平的一对组合(Ai,Bj)进行的第k次试验的结果。
记n?mrs。
1rsm1m均值:X????Xijk,Xij???Xijk,
ni?1j?1k?1mk?11sm1rmX?Xijk,X?j??Xijk。 ????msj?1k?1mri?1k?1平方和:ST????(Xijk?X)2,
i?1j?1k?1rsrsm SA?B?m??(Xij??Xi???X?j??X)2,
i?1j?1 SE????(Xi?1j?1k?1rrsmijk?Xij?)2,
s SA?ms?(Xi???X),SB?mr?(X?j??X)2。
2i?1j?1平方和关系:ST?SA?B?SE?SA?SB。 判断因素A的影响是否显著,就是要检验假设
H0A:?1j??2j????rj???j,j?1,2,?,s。
选取统计量:
FA?SA/(r?1)~F(r?1,n?rs)SE/(n?rs),再根据
P{AF??F(?r1,?n?下结论:若)r?sFA?F?,拒绝H0A;否则,接受H0A。
判断因素B的影响是否显著,就是要检验假设
H0B:?i1??i2????ir??i?,i?1,2,?,r。
选取统计量:
FB?SB/(s?1)~F(s?1,n?rs)SE/(n?rs),再根据
P{BF??F(?s1,?n?下结论:若r?sFB?F?,拒绝H0B;否则,接受H0B。
判断两个因素A、B之间的交互作用是否显著,就是要检验假设
H0A?B:?ij??,i?1,2,?,r;j?1,2,?,s。
选取统计量:FA?B?SA?B/(r?1)(s?1)~F((r?1)(s?1),n?rs),再根据
SE/(n?rs)P{FA?B?F?((r?1)(s?1),n?rs)}??下结论:若FA?B?F?,拒绝H0A?B;否则,接受H0A?B。
§5 回归分析
回归分析是考察两个变量之间统计联系的一种重要方法,它在许多领域中都有极其广泛的应用。本节主要考察一个随机变量与另一个或多个非随机变量之间的关系。
5.1 回归概念
变量之间的关系大致可分为两类,一类是确定性的关系,如我们熟知的函数关系;另一类是非确定性的关系。对于某些非确定性的关系,如随机变量Y与变量x(它可能是多维向量)之间的关系,当自变量x确定之后,因变量Y的值并不跟着确定,而是按一定的统计规律(即随机变量Y的分布)取值。这时我们将它们之间的关系表示为
Y?f(x)??,
其中f(x)是一个确定的函数,称之为回归函数,?为随机项,且?~N(0,?2)。
回归分析的任务之一是确定回归函数f(x)。当f(x)是一元线性函数时,称之为一元线性回归;当f(x)是多元线性函数时,称之为多元线性回归;当f(x)是非线性函数时,称之为非线性回归。如何确定回归函数f(x)呢?一是根据经验公式,二是根据散点图。不管是哪种类型的回归,f(x)总含有未知参数,需要用到参数估计方法。一般情况下,还需要检验f(x)是否合理。回归分析的目的是用f(x)来做预测和决策。
5.2 一元线性回归 一元线性回归模型为
Y??0??1x??,
将数据点(xi,yi)(i?1,2,?,n)代入,有
yi??0??1xi??i,i?1,2,?,n,
并且假定残差?i~N(0,?2)。以下用最小二乘法确定回归直线方程
y??0??1x
中的未知参数?0和?1,即使残差平方和(也称之为剩余平方和)
Q(?0,?1)?????[yi?(?0??1xi)]2
2ii?1i?1nn达到最小值,令
?Q?Q?0,?0得 ??0??1?1?SxySxx,?0?y??1x,
nn1n1n2其中 x??xi,y??yi,Sxx??(xi?x),Sxy??(xi?x)(yi?y)。
ni?1ni?1i?1i?1nn再记Syy??(yi?y),U??(?0??1xi?y)2?Sxy2/Sxx(称之为回归平方和,
2i?1i?1。判断变量y与x之间是否存在线性关系,需要检验假设 U?Q?Syy)
H0:?1?0 。
选取统计量
F?U~F(1,n?2),
Q/(n?2)根据P{F?F?(1,n?2)}??下结论:若F?F?,拒绝H0,即变量y与x之间存在线性关系;否则,接受H0,即变量y与x之间不存在线性关系,考虑用其他回归模型。
5.3 利用线性回归方程进行预测和控制
如何根据样本提供的信息来预测当变量x?x0时随机变量Y0的值?一个自然的想法是用预测量y0??0??1x0来代替,但是它与真值Y0的差值是多少呢?预测量y0的优劣取决于|y0?Y0|的大小。记
1(x0?x)22Q??。 d?1??,?nSxxn?22可以证明当Y0与Y1,Y2,?,Yn相互独立时,
y0?Y0~t(n?2)。 ?d?这样在显著性水平?下可得到Y0的预测区间:
?,y0?t?(n?2)d??]。 [y0?t?(n?2)d??(可信程度为95%)或 当n较大时,预测区间的上下限近似取作y0?1.96?
?(可信程度为99%)。 y0?2.58?控制是预测的反问题,即要使随机变量Y落在指定的区间(yL,yU)内,变量x应控制在什么区间内?从方程
?, yL??0??1xL?1.96?? yU??0??1xU?1.96?中解出xL和xU,则当?1?0时,控制区间为(xL,xU);当?1?0时,控制区间为
(xU,xL)。
例1 下面给出了悬挂不同重量x(单位:g)的物体时弹簧的长度y(单位:cm):
xi: yi:
5 7.25
10 8.12
15 8.95
20 9.90
25 10.90
30 11.80
问变量y与x之间的线性关系如何?当悬挂16g重物时弹簧的长度大约是多少?要使弹簧的长度控制在10 cm ~ 11 cm之间,问悬挂物体的重量应控制在什么范围内?
解 从所给的数据可得:
n?6,x?17.5,y?9.487,Sxx?437.5,Sxy?80.065,Syy?14.678。
于是,?0、?1的最小二乘估计值分别为
?1?Sxy/Sxx?0.183,?0?y??1x?6.284。
经验回归函数为y?6.284?0.183x。
用F检验法检验变量y与x之间的线性关系的显著性。回归平方和
2U?Sxy/Sxx?14.652,残差平方和Q?Syy?U?0.026。因为统计量F?UQ/(n?2)的观测值F?2254?F0.01(1,4)?21.2,所以变量y与x之间存在特别显著的线性关系。
当x0?16时,y?6.284?0.183?16?, t0.05(4)?2.776。取显著性水平??0.05时,9.211(16?17.5)20.026??2.776?1??t?(n?2)d???0.242,
6437.56?2得到预测区间为[8.970,9.454]。这表明,当悬挂16g重物时弹簧的长度在8.970 cm ~ 9.454 cm之间的可信程度为95%。
由10?6.284?0.183x?1.96?0.026/(6?2)解得x?21.17。
由11?6.284?0.183x?1.96?0.026/(6?2)解得x?24.91。即要使弹簧的长度控制在10 cm ~ 11 cm之间,悬挂物体的重量大致应控制在21.17 g ~ 24.91 g之间。
5.4 可线性化回归
根据经验公式或散点图,选择适当的曲线回归方程。为了确定其中的未知参数,往往可以通过变量代换,把非线性回归化为线性回归,然后用线性回归的方法确定这些参数的值。表2-6列出了常用的可线性化回归曲线方程(a?0),他们的图形分别如图2-5~2-9所示。
表2-6
曲线方程 1/y?a?b/x 变换公式 u?1/x,v?1/y u?lnx,v?lny u?x,v?lny u?x,v?lny 变换后的线性方程 v?a?bu y?axb y?a?blnx v?c?bu(c?lna) v?a?bu y?aebx y?1/(a?be?x) v?c?bu(c?lna) v?a?bu u?e?x,v?1/y 例2 电容器充电后,电压达到100V,然后开始充电,测得时刻ti时的电压
ui如下: ti(s):
0
1
2
3
4
5
6
7
8
9
10
ui(V): 100
75 55 40 30 20 15 10 10 5 5
试求电压u关于时间t的回归方程。
解 画出散点图(图2-10),可设回归方程为
u?Beat(a?0)。
取对数,得
lnu?at?lnB,
令y?lnu,x?t,b?lnB,得
y?ax?b。
相应的数据变换如下:
xi: yi:
0 1 2 3 4 5 6 7 8 9 10
4.605 4.317 4.007 3.689 3.401 2.996 2.708 2.303 2.303 1.609 1.609
根据上述数据计算得:
x?5,y?3.050,Sxx?110,Sxy??34.389,Syy?10.860。
用F检验法检验变量y与x之间的线性关系的显著性。回归平方和
2U?Sxy/Sxx?10.751,残差平方和Q?Syy?U?0.109。因为统计量F?UQ/(n?2)的观测值F?887.697?F0.01(1,9)?10.56,所以变量y与x之间存在特别显著的线性关系。
按最小二乘法:
a?Sxy/Sxx??0.3126,b?y?ax?4.613。
所以变量y关于x的回归直线方程为
y??0.3126x?4.613。
再换回原变量得
u?100.786e?0.3126t。
这就是所求的回归直线方程。
5.5 多元线性回归和预测
在许多实际问题中,还会遇到一个随机变量与一组变量的相关关系问题,这要用多元回归分析的方法来解决。
(1)多元线性回归的数学模型
设随机变量Y与m个变量x1,x2,?,xm有关系
Y??1x1??2x2????mxm??,
其中?为随机项,且?~N(0,?2)。记
?y1??1x11???y1x21Y??2?,X???????????y?n??1xn1?x1m???1???1???????x2m???,???2?,???2?,
???????????????xnm?n?(m?1)??n???m?其中yi为随机变量Y的观测值,X为已知的常数矩阵,其中x1,x2,?,xm的一组观测值为xi1,xi2,?,xim,i?1,2,?,n,且残差?i~N(0,?2),则有
y?X???,
残差平方和
Q??T??(y?X?)T(y?X?)。
问题归结为:根据y和X求?,使残差平方和Q达到最小值。
(2)参数估计 令
?Q?Q?Q?0,?0,?,?0,得 ??0??1??m??(XTX)?1XTy,
即得到所求的回归方程为
y??1x1??2x2????mxm。
(3)相关性检验
与一元回归情况相似,首先建立待检假设
H0:?1??2????m?0。
若能通过检验拒绝H0,则Y与m个变量x1,x2,?,xm之间存在线性相关关系。
记
n1ny??yi,Syy??(yi?y)2,Q?Syy?U。
ni?1i?1选取统计量
F?U/m,
Q/(n?m?1)在H0成立的条件下,F~F(m?1,n?m?1)。然后根据
P{F??F(?m1,?n??m下结论:如果1?F?F?,拒绝H0,即Y与m个变量
x1,x2,?,xm之间存在线性关系;否则,接受H0,即Y与m个变量x1,x2,?,xm之间不存在线性关系。
在多元线性回归模型中,拒绝假设H0,即回归方程显著。然而变量
x1,x2,?,xm对Y的影响并不都是十分重要的,人们还关心Y对x1,x2,?,xm的回归中哪些因素更重要些,哪些因素不重要。要剔除不重要的,需要采用偏F检验法,即检验假设
Hk:?k?0,k?1,2,?,m。
通常选取统计量
Fk??k2/akkQ/(n?m?1),
其中akk是矩阵(XTX)?1的主对角线上第k?1个元素。
在Hk成立的条件下,Fk~F(1,n?m?1)。然后根据P{F?F?(1,n?m?1)}??下结论:如果F?F?,拒绝Hk,即xk对Y的影响显著;否则,接受Hk,即xk对
Y的影响不显著。
(4)预测问题
如何根据样本提供的信息来预测当变量(x1,x2,?,xm)?(x10,x20,?,xm0)时随机变量Y0的值?一个自然的想法是用预测量
6.5 判别效果检验
判别效果的好坏与A1,A2,?,Ar分类的合理性有关,图2-12说明马氏距离判别法和费希尔判别法是失效的,若将其重新分类如图2-13,那么判别的效果将会好一些。因此,需要对分类的合理性进行假设检验。
选取统计量
其中F??(Fr(a?aTii)(ai?a)/(r?1)F??ni?1rni~F(r?1,n?r),
??(a(i)j?ai)T(a(i)j?ai)/(n?r)i?1j?1a?(T1r1a?,2ma,,nja??)(ai),(ii?n)?ai(。ai)j1j,2j(当(i?1?1r时,,?说明分类比较合理。nr关于如何分类参看模糊聚类分析方法。 i)a,jTam,(j
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典综合文库数学建模 数理统计方法在线全文阅读。
相关推荐: