卫生统计学复习资料

来源:网络收集 时间:2025-04-29 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ:370150219 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

2007级预防行政班

3、缺点:

适宜用参数方法的资料,用非参数方法处理,会损失信息,降低检验效率。 因为非参数检验犯Ⅱ型 4、适用范围: (1)资料不具备参数方法所需条件; 错误概率β比参数检验大。

(2)等级资料和开口资料。

★适合参数检验条件的资料,应首选参数检验; ☆若参数检验的应用条件得不到满足,则用非参数检验才是准确的。 第一节 配对设计差值的符号秩和检验(Wilconon法) 一、方法步骤 举例11.1

1、建立假设:H0: 差值总体中位数Md=0 H1: 差值总体中位数Md≠0 α=0.05 2、求差值 3、编秩: (1)依差值绝对值从小到大编秩,再根据差值的正负给秩次冠以正负号; (2)差值为零时,舍去不计; (3)差值相等,符号相同,按顺序排列; (4)差值相等,符号不同,取平均秩次。 4、求秩和并确定检验统计量T (1)分别求正、负秩次之和T+、T_ (2)取绝对值小者为检验统计量T,本例T=|T-|=6

5、确定P值

(1)当n≤25时,以n查附表 T界值表 T≤T界值,P小于等于相应概率 T>T界值, P大于相应概率

(T在界值范围之内,P值大于表上方相应概率 T在界值范围之外,P值小于表上方相应概率) 本例 n=11,T=6,双侧检验, T=6T0.01=5,P>0.01

即 0.02>P>0.01

(2)当n>25时,可计算u值,确定P值

u?|T?n(n?1)/4|?0.5

n(n?1)(2n?1)/24 而当相同秩次较多(超过25%)时,需计算校正u值.

u?|T?n(n?1)/4|?0.5n(n?1)(2n?1)?(t3j?tj

24?)48

双侧 单侧 u<1.96 ,P>0.05 u<1.64, P>0.05 u>=1.96, P<=0.05 u>=1.64, P<=0.05

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

26

2007级预防行政班

u>=2.58, P<=0.01 u>=2.33, P<=0.01 6、推断和结论 ∵ 0.02>P>0.01 ∴ 在α=0.05水准上,拒绝H0,接受H1 故可认为培训后评分高于培训前。

第二节 两样本比较的秩和检验(Wilcoxon法) 方法步骤

1、建立假设:H0: 两组小鼠生存日数总体分布相同 H1: 两组小鼠生存日数总体分布不同 α=0.05 2、编秩: (1)两组分别从小到大排列,再将两组数据由小到大统一编秩; (2)相同数据在同组,按顺序排列; (3)相同数据在不同组,取平均秩次。 3、求秩和并确定检验统计量T (1)分别求各组的秩和T1、T2 (2)取例数小的一组秩和为检验统计量T, 本例T=T1=170 4、确定P值

(1)以n1(例数小者)和n2-n1,查附表11-4: T在界值范围之内,P值大于表上方相应概率 T在界值范围之外,P值小于表上方相应概率 T恰好等于界值, P值等于表上方相应概率 本例 n1=10,n2-n1=12-10=2,T=170, 在双侧P=0.01的界值范围(76~154)之外; P<0.01 (2)当n1或n2-n1超出附表11范围时,可计算u值,确定P值

u?|T?n1(N?1)/2|?0.05

n1n2(N?1)/12 而当相同秩次较多(超过25%)时,需计算校正u值. uc=u/

c

3

C?1??(tj?tj)/(N3?N)

双侧 单侧 u<1.96 ,P>0.05 u<1.64, P>0.05 u>=1.96, P<=0.05 u>=1.64, P<=0.05

u>=2.58, P<=0.01 u>=2.33, P<=0.01 6、推断和结论 ∵ 本例P<0.01 ∴ 在α=0.05水准上,拒绝H0,接受H1, 故可认为两组生存日数有差别,因为

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 27

2007级预防行政班

实验组平均秩次=170/10=17; 对照组平均秩次=83/12=6.92; 故可认为实验组生存日数比对照组长。 第三节 多个样本比较的秩和检验

(Kruskal-Wallis法,H检验) 一、原始数据的多个样本比较 方法步骤

1、建立假设:H0: 4个功能区SO2日均浓度总体分布相同 H1: 4个总体的位置不同或不全同 α=0.05 2、编秩: (1)各组分别从小到大排列,再将各组数据由小到大统一编秩; (2)相同数据在同组,按顺序排列; (3)相同数据在不同组,取平均秩次。 3、求各组的秩和Ri 4、计算检验统计量H

H?12

N(N?1)?R2in?3(N?1)i

而当相同秩次较多(超过25%)时,需计算校正HC值. HC =H/C C=1-∑(t3j-tj)/(N3-N)

本例 Hc=13.39 5、确定P值

(1)若组数k=3,每组例数≤5,以n和n1、n2、n3查附表11-6 ,H界值表 (2)若组数k>3或每组例数>5,以自由度v=k-1,查附表X2界值表 本例 k=4,每组例数>5, 以自由度v=4-1=3,查附表9,X2界值表 X2 0.005,3=12.84 H=13.39> X20.005,3=12.84

P<0.005 6、推断和结论 ∵ 本例P<0.005 ∴ 在α=0.05水准上,拒绝H0,接受H1, 故可认为4个功能区SO2日均浓度不同。

二、等级资料的多个样本比较 方法步骤 1、建立假设:H0: 5种病人细胞学分级的总体分布相同 H1: 5个总体的位置不同或不全同 α=0.05 2、编秩: (1)计算各等级的合计数 (2)确定秩次范围

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 28

2007级预防行政班

(3)求平均秩次 3、求各组的秩和Ri 4、计算H值和校正Hc值

H?12N(N?1)?R211)

n?3(N?1

本例 H=184.683 Hc= H/C

C=1-∑(t3j-tj)/(N3-N)

=1-[(403-40)+(523-52)+...]/(3003-300)

=0.94465 本例 Hc=195.50 5、确定P值 (1)若组数k=3,每组例数≤5,查附表11-6, H界值表 (2)若组数k>3,每组例数>5,以自由度v=k-1,查附表X2界值表 本例 k=5,每组例数>5, 以自由度v=5-1=4,查附表9,X2界值表 X2 0.005,4=14.86 Hc=195.50> X2 0.005,4=14.86

P<0.005 6、推断和结论 ∵ 本例P<0.005 ∴ 在α=0.05水准上,拒绝H0,接受H1, 故可认为5种病人细胞学分级有程度上的差别

第四节 多个样本两两比较的秩和检验(Nemenyi法) 一、D检验法

(一)各样本例数相等时 方法步骤:

表9.7 例9.5资料两两比较秩和差数的绝对值 ━━━━━━━━━━━━━━━━━━━━━━━━━ D=│RA-RB│

各组秩和 ───────────────── 工业区81 商业区63.5 居民区50.5 ───────────────────────── 对照区15 66** 48.5* 35.5 工业区81 17.5 30.5 商业区63.5 13.0 居民区50.5

━━━━━━━━━━━━━━━━━━━━━━━━━ * P<0.05 ** P<0.01

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。29

2007级预防行政班

1、建立假设 H0: 任两个总体分布相同 H1: 任两个总体的位置不同 α=0.05 2、求秩和差值D作为检验统计量 3、以样本例数n和组数k,查附表13,D界值表,确定P值。 n=5,组数k=4 D0.05(5,4)=48.1, D0.01(5,4)=58.2

4、推断和结论 (二)各样本例数不相等时 方法步骤: 1、建立假设 H0: 任两个总体分布相同 H1: 任两个总体的位置不同 α=0.05 2、求秩和差值D作为检验统计量 3、计算界值 P=0.05时,界值为: P=0.01时,界值为:

Cx20.05,k?1[N(N?1)/12][1/nA?1/nB]

Cx20.01,k?1[N(N?1)/12][1/nA?1/nB]

4、确定P值 D<界值0.05 , P>0.05 D>=界值0.05 , P<=0.05 D>=界值0.01 , P<=0.01

5、推断和结论 二、t检验法(见教材P329)

第五章 回归与相关 第一节 直线回归 一、直线回归的概念

当观察到两变量的成对数值,点在直角坐标上,点的趋向呈直线形状时,可对这两个变量间的联系用一个方程式进行表达。这种分析方法称为直线回归分析;这一方程式称为直线回归方程式。 二、直线回归方程式的一般表达式及其意义 1、方程的一般表达式 2、意义:

(1)a:回归直线在Y轴上的截距 a>0:直线与Y轴的交点在原点的上方; a=0:直线通过原点;

a<0:直线与Y轴的交点在原点的下方; (2)b:为回归系数, 即直线的斜率 b>0:Y随X增大而增大; b<0:Y随X的增大而减少;

??a?bx y好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 30

2007级预防行政班

2007级预防行政班卫生统计学复习资料

第三节 统计工作的基本步骤

统计设计 收集资料 整理资料 分析资料 一、统计设计 三、整理资料 1、调查设计 1.目的 将收集的原始资料系统化、条理化,便于2、实验设计 进一步计算和分析 (详见第十三章) 2.整理分组方式 二、收集资料 (1)性质分组 资料来源 (2)数量分组 (1)统计报表 三、分析资料 (2)日常医疗工作原始记录和报告卡 1、统计描述 (3)专题调查 2、统计推断 第四节 统计图表 一、统计表

1、统计表的作用

代替冗长的文字叙述,便于计算、分析和对比。 2、统计表的结构 1)标题

2)标目 横标目(主语):说明表各横行数字的涵义,通常列在表的左侧 纵标目(谓语):说明表各纵栏数字的涵义 主语和谓语连贯起来能读成一句完整而通顺的话 3、统计表的种类:

1)简单表:只按单一变量分组

2)组合表:按两个或两个以上变量分组

某地1980年男、女HBsAg阳性率 ━━━━━━━━━━━━━━━━ 性别 调查数 阳性数 阳性率(%) ──────────────── 男 4234 303 7.16 女 4530 181 4.00 ────────────── 合计 8764 484 5.52

━━━━━━━━━━━━━━━━ 4、列表原则:重点突出,简单明了;主谓分明,层次分明 5、统计表的基本要求:

1)标题:概括地说明表的内容,必要时注明资料的时间和地点,写在表上方。常见的缺点:过于简略,甚至不写标题;或过于繁琐;或标题不确切。

2)标目:文字简明扼要,有单位的标目要注明单位。常见的缺点:标目过多,层次不清

3)线条:不宜过多,除上面的顶线,下面的底线,纵标目与合计之间的横线 外,其余线 条一般均省去。表的左上角不宜有斜线。 4)数字:

A、数字一律用阿拉伯数字表示

B、同一指标的小数位数应一致,位次对齐

C、表内不宜留空格,暂缺或未记录,用“?”表示,无数字,用“—”表示,数字为0,填写0 D、绝对数太小而无法计算指标,则用“?”代替。

5)备注:一般不列入表内,必要时可用“*”号标出,写在表的下面。 二、 统计图 1、统计图作用:

通过点、线、面等形式表达统计资料,直观地反映事物之间的数量关系。但需注意,由于统计图对数量的表达较粗糙,不便于作深入细致的分析,一般需附相应的统计表。 2、常见统计图种类:

条图、百分条图,圆图,线图,半对数线图,直方图,散点图 3、制图的基本要求:

1)按资料的性质和分析目的,选用适合的图形

2)要有标题,扼要说明资料的内容,必要时注明时间、地点,一般写在图的下面。

3)横轴尺度从左到右,纵轴尺度从下而上,数量一律由小到大。横轴与纵轴坐标长度比例一般为5:7 4)比较不同事物,用不同线条或颜色表示,并附上图例说明。

第二章 数值变量(计量)资料的统计分析 第一节 计量资料的统计描述 一、计量资料的频数分布 (一)频数表的编制 1、求极差(全距)

R=最大值-最小值

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

1

2007级预防行政班

=132.5-108.2=24.3 2、求组距(i)

i=极差/组数=24.3/10=2.4≌2 3、分组段

原则:第一组段包括最小值,最后组段包括最大值。 每一组段都有上限和下限 上限:组段的终点(最大值) 下限:组段的起点(最小值) 4、列表划记

(二)频数分布的特征

1、集中趋势:数据向某一数值集中的倾向 2、离散趋势:数据的数值大小不等的倾向 (三)频数分布的类型

1、对称分布: 集中位置在中间,左右两侧频数大体对称 2、偏态分布:

(1)正偏态:集中位置偏向数值小的一侧; (2)负偏态:集中位置偏向数值大的一侧 (四)频数表的用途:

1、揭示资料的分布特征和分布类型 2、便于进一步计算指标和统计分析 3、便于发现特大或特小的可疑值 二、集中趋势的描述 (一)常用平均数的种类: 1、算术均数(简称均数) 2、几何均数 3、中位数

(二)算术均数(均数)

样本均数用X表示,总体均数用μ表示 1、适用范围:对称分布,尤其是正态分布的资料 2、计算方法:

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。2

2007级预防行政班

(1)直接法 X=∑X / n (2)加权法 适用于频数表资料 X=∑fX / ∑f

其中 X=组中值=(上限+下限)/ 2 f=频数 (三)几何均数(简记为G) 1、适用范围:

(1)等比级数资料,如血清滴度资料 (2)对数正态分布资料 2、计算方法:

(1)直接法

G=log-1(∑logX/n) (2)加权法

G=log-1(∑flogX/∑f) (四)中位数(简记M) 1、中位数的定义:

中位数: 将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。 2、中位数的适用范围: (1)偏态分布资料 (2)分布不明资料

(3)分布末端无确定值资料(开口资料)

理论上,中位数可用于任何分布的计量资料, 但实际应用中常用于偏态分布,特别是开口资料。在对称分布资料中,M=X 3、计算方法:

(1)直接法:适用于观察数少资料 n为奇数时, M=X(n+1)/2

n为偶数时, M=(Xn/2+X(n/2+1))/2 (2)频数表法:适用于频数表资料

步骤:①从小到大计算累计频数和累计频数; ②确定中位数所在组段; ③计算中位数M

M=LM+iM/fM(n/2-∑fL) LM=M所在组段的下限 iM=M所在组段的组距 fM=M所在组段的频数 ∑fL=小于L各组段的累计频数

M在8~组段 L=8 i=4 fX=48

∑fL=26 n=108

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 3

2007级预防行政班

M=L+i/fX(n/2-∑fL)=10.33

(五)小结: 常用平均数的意义及其应用场合 平均数 意义 应用场合 ───────────────────────── 均数 平均数量水平 最适用于对称分布,特别是 正态分布

几何均数 平均增(减)倍数 等比资料或对数正态分布 中位数 位次居中的观察值 (1)偏态分布,(2)分布不明, (3)分布末端无确定水平 三 离散趋势的描述

甲组 26, 28, 30, 32, 34. X甲=30 乙组 24, 27, 30, 33, 36. X乙=30 丙组 26, 29, 30, 31, 34. X丙=30 (一)反映离散程度的常用指标: 1、极差

2、四分位数间距 3、方差 4、标准差 5、变异系数 (二)极差(全距)R

1、计算公式:R=最大值-最小值

2、意义:R愈大,离散度愈大,R愈小,离散度愈小。 3、优点:计算简单,意义明了

4、缺点:(1)不能反映每一个观察值的变异; (2)样本例数越大,R可能越大; (3)R抽样误差大,不稳定。 (三)四分位数间距(简记Q) 1.百分位数(记作PX)

(1)定义:将一组观察值从小到大按顺序排列, 一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。 (2)计算步骤与公式

①从小到大计算累计频数和累计频数; ②确定百分位数所在组段; ③计算百分位数Px Px=L+i/fx(n.x%-∑fL) L=Px所在组段的下限 i=Px所在组段的组距 fx=Px所在组段的频数 ∑fL=小于L各组段的累计频数 如计算P25

P25 在8~组段

L25=8,i25=4 ,f25=48,∑fL=108,n=108 P25=L25+i25/f25(n.25%-∑fL)=8.083

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 4

2007级预防行政班

计算P75

P75 在12~组段

L75=12,i25=25 ,f75=4,∑fL=74,n=108 P75=L75+i75/f75(n.75%-∑fL)=13.120 2. 四分位数间距

(1)计算公式: P25: 下四分位数 简记QL P75: 上四分位数 简记QU 四分位数间距Q=QU-QL =13.120-8.083 =5.037

(2)意义:中间一半观察值的极差,与R意义相似。 (3)特点:

A.比R稳定,但仍未考虑每一个观察值的变异; B.常用于描述偏态资料的离散度。

(四)方差(总体方差简记σ2,样本方差简记S2) 一组观察值的离均差平方和,取其均数,即方差。 1、计算公式:

?2??(x??)2 N

s2??(x?x)2

n?1

2、意义: 方差越大,离散度越大; 方差越小,离散度越小。

(五)标准差(总体标准差简记σ,样本标准差简记S) 1、定义:方差的开方,即标准差。

???(x??)2

N

s??(x?x)2

n?1

2、意义:与方差的意义相同 3、样本标准差计算方法: (1)直接法:

s??x2?(?x)2/n n?1

(2)加权法:

?fX2?(?fX)2s?/?f

?f?1

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。5

2007级预防行政班

u? 3、检验步骤

|p??|?p|p??)??(1??)n

(1)建立假设 H0 :π=π0

H1 :π≠π0 α=0.05 (2)计算u值 π=0.11,n=598, p=0.14

u? (3)确定P值

|p??|?p|p??)??(1??)n=2.34

因 u=2.34>1.96, 故 P<0.05 (4)推断

∵ P<0.05,∴按α=0.05的水准,拒绝H0,接受H1。故可认为油田职工家属高血压患病率高于一般人。

(二)两个样本率的比较 1、适用条件

(1) n1p1>5 且n1(1-p1)>5 (2)n2p2>5 且n2(1-p2)>5 2、检验公式

u?

|p1?p2|11pc(1?pc)(?)n1n2 X1?X2pc?n1?n2

第三节 X2检验

一、X2检验用途 1、两个及以上率(或构成比)之间差异比较; 2、推断两变量间有无相关关系; 3、检验频数分布的拟合优度。 二、X2检验类型 1、四格表X2检验; 2、行×列表X2检验; 3、配对四格表X2检验。 三、X2检验基本思想及检验步骤 假设两总体率相等

H0 : 两总体阳性率相等, 即π1=π2 =53.59%; H1 : 两总体阳性率不等, 即π1≠π2;

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 21

2007级预防行政班

α=0.05。

如果H0 成立,则表10.7的第一行第一列理论上的生存数为: 86×97/181=86×53.59%=46.09 此结果称为理论数 ,用T表示。上述计算可由下式计算

Trc

nrnc =n

nr=同行合计数,nC=同列合计数,n=总例数 按此公式,可以计算四个理论数 T11=86×97/181=46.09 T12=86×84/181=39.91 T21=95×97/181=50.91 T22=95×84/181=44.09 表10.7内,

52 45 34 50 只有这四个格子的数据是基本的,其它的数据都是由这四个数据推算出来的,这种资料又称为四格表资料。且表格内的数字为实际资料的数字,故称为实际数,用A表示。 从表10.7可见,基本格子的实际数都不等于理论数

显而易见:两样本率相差愈大,则实际数与理论数的差值就愈大。实际数与理论数的差值服从X2 分布:

(A?T)2T X2=∑

X2值的大小,除了决定于A-T的差值外,还取决于格子数,严格地说是与自由度v有关。因为各格的(A-T)2/T都是正值,故格子数愈多,X2值也就会愈大。自由度的计算公式为 v=(行数-1)(列数-1) 四格表的v=(2-1)(2-1)=1。

如果检验假设成立,则实际数和理论数的差别不会很大,X2值也不会很大;否则X2值会很大。要大到多大程度才有统计学意义? 按v查X2界值表,由X2值确定P值,按P值大小作出推断。 表10.8 x值、P值和统计结论 x值 P值 统计结论

222 0.05 不拒绝H0,差异无统计学意义 20≥x.05,(v) ≤0.05 拒绝H0,接受H1,差异有统计学意义 2≥x0.01,(v) ≤0.01 拒绝H0,接受H1,差异有高度统计学

意义

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 22

2007级预防行政班

X2 界值表特点: (1) X2 >0; (2) P一定时,自由度ν越大,X2值越大; (3)自由度ν一定时,X2值越大,P越小; 以v=1 查X2界值表得:

X21,0.05=3.84,X21,0.01=6.63

四、四格表资料的X2检验 (一)用途: 两个样本率(或构成比)差异的比较 (二)检验步骤 1、建立假设

H0 : 两总体阳性率相等, 即π1=π2 =53.59%; H1 : 两总体阳性率不等, 即π1≠π2; α=0.05。 2、计算X2 值 X2=3.11

3、查X2界值表,确定P值

四格表的v=(2-1)(2-1)=1

因 X2 =3.110.05 4、推断

∵ P<0.05,∴按α=0.05的水准,不能拒绝H0,

查X2界值表得,0.1>P>0.05,按α=0.05水准不拒绝,故尚不能认为两种疗法的3年生存率有差别。 (三)四格表专用公式

首先将四格表的基本格子的实际数命名为:

a c

b d (A?T)2T 此时,行合计为(a+b)和(c+d),列合计为(a+c)和(b+d),以a、b、c、d 代入公式X2=∑

得简化后的四格表专用公式为

2?ad?bc?n??a?b??c?d??a?c??b?d?

X2

四格表资料的两种公式的检验结果相同,但显然,专用公式计算更为简便。 (四)四格表X2值的校正 1、校正原由

X2分布原来是正态变量的一种分布,X2界值表就是根据这种连续性分布而计算出来的。但是分类资料是间断性的,由此计算的X2值不连续,尤其是自由度为1的四格表,其P值可能偏小,此时要对X2值作连续性校正。

2、校正条件 1 ≤T<5 且 n≥40 3.校正公式:

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

23

2007级预防行政班

(A?T?0.5)2 X2=∑

T

X2?

(五)四格表X2检验的应用条件

1、当n≧40 且所有T≧5时,用四格表X2检验;

(ad?bc?n/2)2n?a?b??c?d??a?c??b?d?

2、当n≧40但有1≦T<5时,用校正四格表X2检验; 3、当n<40或有T<1时,不能用X2检验,改用确切概率法。

注意:四格表X2检验与前节两样本率比较的u检验是等价的。若对同一资料同时作两种检验,两个统计量X2=u2,检验的条件是一致的。 五、配对四格表资料的X2检验

(一)配对四格表资料的特点 (二)计算公式:

2(b?c)x2?b?c

当b+c<40时,

2(|b?c|?1)x2?b?c

(三)计算举例 a. 建立假设 H0: 两总体b=c H1: 两总体b≠c α=0.05 b.计算X2值 b=5 c=10 b+c<40

2(|b?c|?1)x2?b?c =1.07

c.查X2表确定P值 首先确定自由度 自由度=(行数-1)(列数-1) =(2-1)(2-1) =1 然后查X2界值表 X20.05,1=3.84 X2=1.07<X2 0.05,1=3.84

P>0.05

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 24

2007级预防行政班

d.推断

在α=0.05水准上,不能拒绝H0,故尚不能认为两法检查的效果不同。 六、 行×列表的X2检验 (一)用途: 1、多个样本率差异的比较 2、多个样本构成比差异的比较 3、双向有序分类资料的关联性检验

(二)计算公式:

2(A?T)x2??T

2Ax2?n(??1)nRnC

(三)举例 1)多个样本率差异的比较

2)多个样本构成比差异的比较 (四)行×列表的X2检验的应用注意事项 1、不宜有理论数小于1,或1≤T<5格子数不超过总格子 数的1/5

★理论数太小的处理方法: (1)增加样本的含量-常规方法 (2)删除理论数太小的行和列 (3)合理合并理论数太小的行或列 第(2)和第(3)种处理方法损失信息和损害随机性, 故不宜作为常规处理方法。

2、当三个及以上率(或构成比)比较,结论拒绝H0时, 只能总的说有差别,但不能说明它们彼此间都有差别,或某两者间有差别。

☆解决此问题方法:X2分割法。

第四章 秩和检验

概述

一、参数统计概念: 在样本来自的总体分布型已知的情况下,对总体参数进行估计和检验。 二、非参数检验: 1、含义:

不依赖于总体分布型,不考虑资料属于何种分布以及分布是否已知, 比较的是分布而不是参数。这 2、优点: (1)适用范围广; (2)某些非参数方法计算简便; (3)易于理解和掌握;

种检验方法称非参数检验。

(4)尤其适用于等级资料和开口资料;

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 25

2007级预防行政班

X-tα,ν. sx , X+tα,ν. sx)

10.8s20=2.41 t0.05,19=2.093 x=

(118.4-2.093×2.41 , 118.7+2.093×2.41) (113.3,123.5)mmHg

例 n=200,

X=3.64mmol/L, s=1.20mmol/L, 估计其95%可信区间。

200)

X? uα.sn

1.20200 ,3.64+1.96×1.20 (3.64- 1.96×

(3.47,3.81)mmol/L 3、可信区间内涵义

以95%总体均数可信区间为例:

有95%的可能所计算出的区间包含了总体均数,即估计正确的概率为95%,错误5%。 4、可信区间两个要素:

(1)准确度:反映在可信度(1-α)的大小。1-α越接近1,越准确。 如可信度99%比95%准确。

(2)精确度:反映在区间范围宽窄。范围越摘越好。 95%可信区间精度优于99%。

在n确定的情况下,准确度↑,精确度↓。 在兼顾准确度和精确度时,一般取95%可信区间。 在可信度确定的情况下,增加样本例数,可提高精确度。 5、可信区间与正常值范围区别:

(1)意义不同:正常值范围是指绝大多数观察值在某个范围; 可信区间是指按一定的可信度估计总体参数(均数)可能所在的范围; (2)计算公式不同 可信区间 正常值范围

X±uα.SX (大样本) X±uα.S

前者用标准误,后者用标准差。

(3)用途不同:可信区间用于估计总体均数,参考值范围用于判断观察对象某项指标正常与否。 四、 假设检验的基本思想和步骤 (一)提出问题:

例:根据大量调查的资料,已知健康成年男子的脉搏均数为72次/分。某医生在山区随机抽取了25名健康成年男子,得其脉搏均数为74.2次/分,标准差为6.5次/分。问能否认为该山区成年男子的脉搏数高于一般人?

本研究目的是判断是否

?>?0(72次/分)。由于存在抽样误差,来自某一总体的随机样本其样本均

11

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

2007级预防行政班

数(

X)与总体均数(?)往往不等;从同一总体中抽取的两个随机样本的样本均数也往往不同。因此,在

比较一个样本均数与一个总体均数的差别,或比较两个样本均数的差别时,需要判断这种差别的性质和意义,造成这种差别有两种可能:

(1)总体均数不等(来自不同总体),有本质差别;

(2)总体均数相等(来自相同的总体),其差别由抽样误差所致,无本质差别。 要判断属于那种可能,需要通过假设检验来回答。 (二)假设检验原理(基本思想)

要检验两指标的差别是由抽样误差引起的,还是由于总体均数不同所致,运用反证法。首先建立检验假设,假设样本来自同一总体,在此假设的基础上计算有关的统计量,根据统计量的大小来判断假设成立的概率的大小。一般把概率P≤0.05的事件称为小概率事件,小概率事件在一次观察中可以认为是不会发生的,如与这原则不符,则认为原先的假设是不正确的,就是说“假设”不能成立,则拒绝 这个“假设”。 否则不拒绝 原来的“假设”。这就是假设检验的基本思想。 (三)假设检验的一般步骤 A.建立假设 两种假设

(1)检验假设(无效假设)用H0表示: 即假设两总体均数相等,差别仅仅由于抽样误差所致; (2)备择假设 用H1表示: 是与H0对立的假设,当H0 被拒绝,则接受H1。 2、确定单双侧检验(常用双侧检验)

根据研究目的和专业知识还要确定是双侧检验还是单侧检验。若目的是推断两总体是否不等(如是否μ≠μ0),不管是μ>μ0还是μ<μ0,都是我们所关心的,则用双侧检验,此时H0 :μ=μ0,H1:μ≠μ0;若从专业知识已知不会μ<μ0(或不会μ>μ0),目的是推断是否μ>μ0 (或μ<μ0),则用单侧检验,此时H0:μ=μ0,H1:μ>μ0(或μ<μ0)。

注意:单侧检验更容易得到有统计学意义的结果,因此,做单侧检验要通过专业知识来确定,否则,一律做双侧检验,双侧检验更稳妥。

3.确定检验水准 检验水准用

?表示,?是拒绝或不拒绝H0的概率标准,也就是小概率事件标准,是人为选定的概

率值,一般取α=0.05(根据需要也可取0.2、0.15、0.1、0.01等)。 B、选定检验方法和计算统计量

根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根据样本资料计算相应的检验统计量。不同的检验方法要用不同的公式计算现有样本的检验统计量(t ,u,F值)。检验统计量是在H0成立的前提下计算出来。 C、确定P值

P值是指在H0所规定的总体中作随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。P也可以通俗地说,P是指H0成立的概率大小。用计算所得的检验统计量(t、u值)与相应的界值比较,确定P值。

D、作出推断结论 假设检验的结论:

(1)统计学结论(拒绝或接受H0 ,即有无统计学意义); (2)专业结论。 2、推断结论方法

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 12

2007级预防行政班

(1) 当 P≤α时,结论是:拒绝H0,接受H1(差别有显著意义或有统计学意义); (2)当 P>α时, 结论是:不拒绝H0。(差别无显著意义,或无统计学意义); 作出上述推断的理由

(1) 如果P≤α,则按α水准拒绝H0 ,接受H1 。因为抽取一个样本,仅代表一次试验,现P≤α,为小概率事件,小概率事件在一次试验中竟然发生,与概率理论的一个基本原则:小概率事件在一次试验中不会发生产生矛盾,因此拒绝H0 。

(2) 如果P>α,则按α水准不拒绝H0 ,因为概率较大,没有理由拒绝H0 ,认为其成立。所以,研究者只是在概率上从H0 与H1 两者中选择一个较为合理的判断。

由此可见,假设检验所作出的结论是具有概率性质的,不是绝对的肯定或否定。不论拒绝或不拒绝H0 都可能发生错误。

拒绝实际上是成立的H0, 这类“弃真”的错误称Ⅰ型错误或第一类错误。

不拒绝(接受)实际上是不成立的H0, 这类“存伪”的错误称Ⅱ型错误或第二类错误。 即拒绝H0,犯Ⅰ型错误;接受H1,犯Ⅱ型错误。 两类错误的关系

第一类错误的概率为α,第二类错误的概率为β α越大,β越小 , α越小,β越大。

第四节 t检验和u检验 一、t检验和u检验用途

1、样本均数与总体均数的比较; 2、配对计量资料的比较; 3、两样本均数的比较; 二、t检验和u检验应用条件 1、t检验应用条件: (1)样本来自正态总体;

(2)两小样本均数比较,还要求样本的总体方差相等。 2、u检验应用条件:

样本例数n较大(n>100),或n虽小而总体标准差已知(少见)。 三、单样本t检验(样本均数与总体均数比较t检验) 1、目的:检验样本均数已知的总体均数

X所代表的未知总体均数?是否等于以已知的总体均数?0。

?0指:

(1)理论值; (2)标准值;

(3)经大量调查得到的稳定值。 2、检验公式

x??0sn v=n-1

t=

四、配对t检验

1、配对设计含义: 将受试对象按一定条件配成对子,再随机分配每对的两个受试对象到不同的处理组。 2、配对设计形式

① 同对的两个受试对象分别给予两种处理;

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 13

2007级预防行政班

② 同一受试对象分别给予两种处理(如同一个样品用 两种方法检测,或同一受试对象不同部位某指标的值) ③ 同一受试对象处理前后比较

d3、检验公式: t=sdn v=n-1

五、两样本均数比较

(一)两大样本均数的u检验 1、适用条件

两个样本含量均足够大(n1>50和n2>50) 2、检验公式:

u?x1?x2s122

n?s21n2

(二)两小样本均数的比较—t检验 1、应用条件

(1)样本来自正态总体;

(2)两样本所来自的总体方差相等。 2、检验公式

t?x1?x2?x21?(?x1)2n1??x22?(?x22)n2n(1?1)1?n2?2n1n2

t?x1?x2(n?1)s2s211?(n2?1)211或 n?n(?)12?2n1n2

六、假设检验应注意的问题

(一)要有严密的抽样研究设计,考虑到被比较的样本的可比性,这是假设检验的前提。(二)选用的假设检验方法应符合其应用条件。

(三)当所比较的差异无实际意义时,不必进行假设检验。 (四)正确理解差别有无显著性的统计意义。 (五)结论不能绝对化。 是否拒绝H0,取决于:

1、被研究的事物有无本质的差异 2、抽样误差大小:

(1)个体差异大小

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。14

2007级预防行政班

(2)样本例数多少 3、检验水准α的高低

(六)报告结论时最好写出较确切的P值, 并且单侧检验需作注明(习惯上采用双侧检验不需作注明) 第五节 方差分析(F检验) ( analysis of variance ANOVA ) 一、方差分析的用途及应用条件 (一)用途

1、检验两个或多个样本均数间的差异有无统计学意义; 2、回归方程的线性假设检验;

3、检验两个或多个因素间有无交互作用。 (二)应用条件

1、各个样本是相互独立的随机样本; 2、各个样本来自正态总体;

3、各个处理组(样本)的总体方差方差相等,即方差齐。 二、 方差分析的基本思想 (一)方差分析中变异的分解 此资料的变异,可以分出三种:

1、总变异:表现为所有数据大小不等,用总的离均差平方和表示,记为SS总。

SS总???(Xij?X)2

knii?1j?1(i 代表第i个组, j代表第j个观察值)

SS总的大小还与总例数N有关,确切讲是与总的自由度

?总有关,

?总=N-1。

2、组间变异:组间变异表现为各组均数 描述其大小指标 (1)用各组均数

Xi大小不等,

Xi与总均数X的离均差平方和表示,记为SS组间

kSS组间的大小与处理因素的作 用、随机误差(测量误差和个体差异)和组间自由度有关。

SS组间??ni(Xi?X)??k?1;i?1 ,组间(2)用SS组间 除于组间自由度表示,称组间均方

MS组间?

SS组间?组间

组间均方反映处理因素和随机误差的作用。

3、组内变异:组内变异表现为各组内部各个观察值大小不等。 描述其大小指标:

(1)用各组内部每个观察值

Xi与组均数X的离均差平方和表示,记为SS组内。SS组内的大小与

随机误差(测量误差和个体差异)和组内自由度有关。

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 15

2007级预防行政班

SS组内???(Xij?Xi)

knii?1j?1,

?组内?N?k;

(2)用SS组内除于组内自由度表示,称组内均方

MS组内?

SS组内?组内

组内均方只反映观察值的随机误差(个体差异及随机测量误差)。

三种变异的关系:SS总=SS组内+SS组间 , (二)方差分析思想

?总??组内??组间。

1、如果两个或多个样本来自同一个总体,或者处理因素的效应一样(没有差异),则组间和组内的变异相等,即:

MS组间 =MS组内 或两者相差不大,它们的比值用F表示:

MS组间F?MS组内

则F=1, 或F与1相差不大。

2、若两个样本或多个样本来自不同总体,或者处理因素的效应不一样,则组间变异大于组内变异,即: MS组间>MS组内

则F值明显大于1。要大到多大程度才有统计学意义? 按确定P值,按P值大小作出推断。

方差分析基本思想:在方差分析时,根据资料的设计类型不同,将总的离均差平方和及自由度分解为两个或多个部分,除随机误差外,其余部分的变异反映处理因素的作用,通过比较不同来源的均方,借助F分布原理作出统计推断,从而了解处理因素对观测指标有无影响。 三、单因素方差分析 (一)计算方法

单因素方差分析的计算公式

变异来源 SS υ MS F

?组间和?组内查F界值表,由F值

组间

i?1?kj?12X?ijnini?C* k-1

SS组间?组间

MS组间MS组内

SS组内组内(误差) SS总 - SS组间 N-k

?组内

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 16

2007级预防行政班

i?1j?12*X?C??ij N-1

kni────────────────────────────

(??Xij)2C?*

四、分析步骤

1、建立假设和确定检验水准; H0: H1:

knii?1j?1N

?1??2??3??4

?1??2??3??4或不全相等

??0.05

2、计算检验统计量F值

表9-15 例9-16 方差分析结果

变异来源 SS υ MS F P

组间 2.0276 3 0.6759 10.24 <0.01 组内 0.7918 12 总 2.8194 15

3、确定P值和推断结论

?F???组间1 以组间自由度为,以组内自由度组内为2,查附表3,F界值表:

由于

0.05,3,12=3.49,

F?F0.05,3,12, 故P<0.05; 按

??0.05,拒绝H0,接受H1, 可以认为四组均数不等或不全

相等。

注意:以上仅是总的结论,尚需对四个样本均数进行两两比较(见后)。 五、 多个样本均数的两两比较-q检验

多个样本均数比较经F检验后,若得出有统计学意义的结论后,要进一步推断哪些组之间有差别,哪些组之间没有差别,还是所有各组之间都有差别,要解决这些问题,就要进一步做均数间的两两比较了。 多个样本均数间的两两比较又称多重比较,由于涉及的对比组数大于2,就不能应用前面介绍的t检验,只能使用下面介绍的方法。 若仍用前述前述的t检验方法,对每两个对比组作比较,会使犯第一类错误(拒绝了实际上成立的H0所犯的错误)的概率α增大,即可能把本来无差别的两个总体均数判为有差别。

(一)检验统计量q的计算公式为:

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 17

2007级预防行政班

q?(XA?XB) 式中

MS误差11(?)2nAnB

XA,XB 为两个对比组的样本均数。MS误差为方差分析中算得的组内均方),nA和

nB 分别为两对比组的样本例数。

(二) q检验的方法步骤 对例9-16资料作两两比较。 1、建立假设

H0:任两对比组的总体均数相等,即 H1:任两对比组的总体均数不等,

?A??B

?A??B

??0.05

2、选择检验方法,计算统计量q

将四个样本均数从大到小顺序排列,并编上组次: 组次 1 2 3 4 均数 3.3200 3.0975 2.6850 2.4025 组别 D C B A 列出两两比较计算表,见表9-17

表9-17 四个样本均数两两比较的q检验

对比组 两均数之差 标准误 q值 组数 q界值 P A与B XA?XB SXA?XB a 0.05 0.01

(1) (2) (3) (4)=(2)/(3) (5) (6) (7) (8) 1与4 0.9175 0.1285 7.140 4 4.20 5.50 <0.01 1与3 0.6350 0.1285 4.942 3 3.77 5.05 <0.05 1与2 0.2225 0.1285 1.732 2 3.08 4.32 >0.05 2与4 0.6950 0.1285 5.409 3 3.77 5.05 <0.01 2与3 0.4125 0.1285 3.210 2 3.08 4.32 <0.05 3与4 0.2825 0.1285 2.198 2 3.08 4.32 >0.05 3、确定P值,判断结果 第一节 分类资料的描述 一、相对数的意义和定义

对于分类资料常采用相对数进行描述。

收集到的分类资料,表现为绝对数,绝对数说明事物发生的实际水平,是进行统计分析的基础,但不便于事物进行深入地分析比较。

相对数:是两个有联系指标之比,说明事物发生的相对水平,便于对分类资料进行分析和比较。 二、常用的相对数

比(Ratio)亦称相对比,是A、B两个有关指标之比,说明A是B的多少倍或百分之几。

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 18

2007级预防行政班

比(Ratio)=A/B(或×100%)

A与B的性质可以相同,也可以不同,可以是绝对数也可以是相对数或平均数。

2、构成比(Proportion)又称构成指标,说明一事物内部各个组成部分所占的比重或分布,常以百分数表示,又称百分比。

构成比?某一组成部分的观察单位数?100%同一事物各组成部分的观察单位总数

构成比两个特点:

(1)一组构成比之和等于100%或1;

(2)某部分构成增加或减少,则其它部分构成就相应减少或增加。

3、率(Rate)又称频率指标,是指在一定时间内发生某现象的观察单位数与可能发生该现象的总观察单位数之比,常以百分率(%)、千分率(?)、万分率(1/万)、十万分率(1/10万)等表示,它说明某现象发生的频率或强度。

发生某现象的观察单位数率??K可能发生该现象的观察单位总数

K为比例基数,可以是百分率(%)、千分率(?)、万分率(1/万)或十万分率(1/10万),可根据习惯或使计算出的率保持一、二位整数。

人口出生率、死亡率、自然增长率、婴儿死亡率等采用千分率,某病死亡率采用十万分率。

三、 应用相对数时注意的问题 1、计算相对数的分母不宜过小

分母过小则计算所得的相对数不稳定,不可靠。如少于30例时,以绝对数表示较好。 2、分析时不能以比代率

3、对观察单位数不等的几个率,不能直接相加求平均率; 4、资料的对比应注意可比性;

5、率或构成比的比较要遵循随机抽样的原则,要做假设检验。 四、 率的标准化法 (一)概念

率的标准化:是指在比较两个或多个总率时,采用一个共同的内部构成标准,将两个或多个样本不同的内部 部构成调整为相同的内部构成,以消除因内部构成不同对总率产生的影响,使算得的标准化率具有可比性。

采用标准化方法计算得到的率简称标化率,又调整率。

基本思想:采用统一的标准内部构成(年龄、性别),在相同的内部构成条件下,计算预期的发生率(死亡率);

目的:消除因内部构成不同对总率产生的影响,使标化率具有可比性。 (二)标准化率计算步骤

1、选择计算方法:直接法和间接法。

(1)若已知被标化组各小组的率,即pi,采用直接法; (2)若已知被标化组各小组的人数,即ni,以及总率,采用间 接法。 2、选定标准

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 19

2007级预防行政班

标准选择原则:

选择有代表性的、较稳定的、数量较大的人群,如全世界的、全国的、全省的、本地区的人群数; 选择相互比较的人群合并做标准; (3)选择相互比较的人群某一组做标准。 3、计算预期数及预期率,即标化率。 (1)直接法:按公式10.4 或 10.5 计算; (2)间接法:按公式10.6。 (三)应用标准化率注意事项

1、应用直接法计算标准化率时,由于所选定的标准人口不同,算得的标准化率也不同,因此,比较几个标准化率时,应采用同一标准人口;

2、当各年龄组的率出现明显交叉时,宜直接比较各年龄组的发生率,而不宜用标准化法; 3、两样本标准化率的比较应作假设检验;

第二节 分类资料统计推断 一、率的抽样误差与标准误 1、率的抽样误差含义

在抽烟研究中,样本率与总体率之间存在的差异称为率的抽样误差。 2、描述率的抽样误差大小的指标-率的标准误 计算公式

??(1??)p?

n (理论值)

Sp(1?p)p? n (估计值)

二、总体率的估计 1、估计方法 (1)点估计 (2)区间估计 2、区间估计方法 (1)正态近似法

A.适用条件: np>5 且n(1-p)>5 B.常用两个区间的估计公式

总体率的95%的可信区间:p±1.96Sp 总体率的99%的可信区间:p±2.58Sp (2)查表法

A.适用条件:n≤50,特别p接近于0或1

B.查表方法:以样本含量n和阳性数x查统计学专著的附表 三、总体率的u检验 (一)样本率与总体率的比较 1、适用条件:np>5 且n(1-p)>5 2、检验公式

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 20

2007级预防行政班

b=0:直线与X轴平行

b的统计学意义是:X每增(减)一个单位,Y平均改变b个单位 三、直线回归分析的步骤

1、收集成对的的实际数据,确定其中一个为自变量X,另 一个为应变量Y;

2、将各对数据点在直角坐标上,得散点图,如散点呈直线 趋势,则可作直线回归分析; 3、直线回归方程的求解,即求出a和b

(1)求解原理:最小二乘法-使各实测点至直线的纵向距离 的平方和最小。 (2)求解公式

b??(x?x)(y?y)lxy?(2 x?x)=

lxx

a?y?bx

4、检验样本b是否从H0:β=0的总体中抽出 如以α=0.05为水准,则:

(1)当 P≤0.05时,不接受H0:β=0的假设,说明存在 回归关系,方程成立,列出回归方程

(2)当P>0.05时,接受H0:β=0的假设,方程不成立。 检验方法:F检验或t检验 步骤:

A、将各对数据点在直角坐标上,得散点图,如散点呈直线 趋势,则可作直线回归分析; B、求a 和 b

1)求ΣX、ΣY、ΣX2、ΣY2及ΣXY;

本例ΣX=13208、ΣY=0.921;ΣX2=19892352,ΣY2=0.115075 ΣXY=1445.164

2)计算X、Y,lxx、lyy、lxy; X =∑X/n=1467.56 Y =∑Y/n=0.1023 lxx =508878.223 lyy =0.020826 lxy =93.545 3)求a 和 b

b??(x?x)(y?y)lxy2 ?(x?x) =

lxx=0.0001838

a?y?bx=-0.1674

C、样本b的假设检验(见后)

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。31

2007级预防行政班

D、 如检验拒绝H0,则列出回归方程:

??-0.1674+0.0001838X y?1)和y四、直线回归方程的图示

在X实测值范围内选相距较远且易读数的两个X值,入回归方程求出Y的估计值,即P1(X1,P2(X2,

??2)?,将这两点用直线相连,即为回归直yyy。在坐标上确定两点P1(X1,1)和P2(X2,2)

线。所绘直线经过(X,Y),与Y轴相交与a。(见图12.1) 五、回归系数b的假设检验

检验样本b是否从H0:β=0的总体中抽出 (一)b的假设检验方法 1、方差分析方法 2、t检验法

(二)t检验计算公式

上式中,Sb为样本回归系数的标准误,Sy.x为剩余标准差,也称回归标准差,它表示应变量Y的观察值对于

t?b?0?sbb,v?n?2sy.x/lxx?2(Y?Y)s??y.xn?2回归直线的离散程度;Sy.x的值变大时表示离散程度大,各观察值Y离回归直线的距离较远。反之,当Sy.x的值较小时,各观察值Y离回归直线的距离较近。 六、直线回归方程的应用

1、描述两变量间的数量依存关系。 2、利用回归方程进行预测 3、利用回归进行统计控制。 七、应用直线回归分析应注意的问题 1、作回归分析要有实际意义。

2、进行直线回归分析前,应绘制散点图;

作用:①看散点是否呈直线趋势;② 有无异常点;

3、直线回归方程的适用范围以求回归方程时X的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外延。

第二节 直线相关 直线相关的概念

在实际应用中若只需了解两个随机变量之间相互关系的情况,而不要求由X推算Y,此时就宜进行直线相关分析(积差相关分析)。 1、相关分析对资料的要求 (1)要求X与Y之间呈线性关系; (2)要求X与Y均为随机变量;

(3)X和Y均呈正态分布,称双变量正态分布。 2、相关分析的目的

分析随机变量X与Y是否有相关关系以及相关的性质和相关的密切程度等。直线相关的性质可通过散

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 32

2007级预防行政班

点图直观地说明。见图12.3。

(1)正相关(Y随X的增大而增大,如散点在一直线上,称完全正相关); (2)负相关(Y随X的增大而减小,如散点在一直线上,称完全负相关);

(3)零相关:散点分布呈圆形等,反映两变量间无直线关系,也可能存在曲线关系。 二、相关系数的意义及其计算 1、相关系数r的意义

r称积差相关系数,没有单位,它反映具有直线关系的两个变量间,相关关系的密切程度和相关性质的指标,取值范围是-1≤r≤1。

(1)r>0表示正相关;r=1,完全正相关; (2)r=0表示零相关;

(3)r<0表示负相关;r=-1,完全负相关; (4)r的绝对值越大,则变量间的关系越密切; 相关程度评价标准,一般认为: 0 <|r|≤0.3, 微弱相关 0.3 <|r|≤0.5, 低度相关 0.5 <|r|≤0.8, 中度相关 0.8<|r|<1 , 高度相关 2、r的计算方法

r?

?(X?X)(Y?Y)?(X?X)__22(Y?Y)?______lXY?lXX?lYY12.8 式中lxy称X和Y的离均差积和,lxx称X的离均差平方和;lyy称Y的离均差平方和。 三、直线相关的分析步骤

1、收集成对的的实际数据X和Y;

2、将各对数据点在直角坐标上,得散点图,如散点呈直线 趋势,则可作直线相关分析; 3、求相关系数r

4、对相关系数r作假设检验,即对r是否来自ρ=0的总体 进行假设检验

如以α=0.05为水准,则:

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

33

2007级预防行政班

(1)当 P≤0.05时,不接受H0:ρ=0的假设,说明存在 相关关系,列出相关系数

(2)当P>0.05时,接受H0:ρ=0的假设,无相关关系。 检验方法:t检验或直接查r界值表确定P值 四、相关系数的假设检验

根据资料计算所得的相关系数r,称样本相关系数,由于存在抽样误差,尽管r不为0,尚不能说明两变量之间有直线相关关系。因此,要对r是否来自ρ=0的总体进行假设检验。检验方法有: t检验 检验公式

求得t值后查附表,t界值表确定P值,按检验水准α作出推断结论。

r?0rn?2t???r2SR1?r21?rn?2直线回归与相关的区别和联系 一、区别

对资料要求不同;

回归分析要求因变量是Y服从正态分布的随机变量,X是可以精确测量和严格控制的变量,一般称Ⅰ型回归,即只能由X作自变量而不能由Y作自变量。

相关分析要求两个变量X、Y是均服从正态分布的随机变量,即双变量正态分布。对这种资料进行回归分析称Ⅱ型回归,即可以求出两个方程:

由X推Y的回归方程: 由Y推X的回归方程: 确定自变量的原则

y??a?bx

y,xy,x??a?by xx,yx,y此时,如何确定哪一个为自变量,哪一个为因变量? A、如两变量间有因果关系,应以“因”为自变量;

B、如两变量间无因果关系,则以较易测定者或变异小者为自变量 2、在应用上不同

说明两变量间依存变化的数量关系用回归,说明变量间的相互关系用相关。 二、联系

对一组数据若同时计算r与b,则它们的正负号是一致的。

r和b的假设检验是等价的,即对同一资料,两者的t值相等。在实际中采用r的检验来代替对b的检验。

四、 常用的几种实验设计方法 (一)完全随机设计(单因素设计) 1、设计步骤

确定各组样本例数(一般要求各组例数相同) 给观察对象编号 使用随机排列表把对象分配到各组中去。 设计的组数可以是两组,也可以是多组 2、优点 :

(1)随机分配能有效地避免某些非实验因素的影响,充分显示实验因素;

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。

34

2007级预防行政班

(2)随机分配增强比较组间的可比性

(3)设立对照能有效控制非实验因素对实验因素影响,从而有效控制偏倚和误差 (4)满足统计学假设检验的“所处理的资料必须随机化”的要求 3、缺点

(1)对混杂因素只靠随机化进行控制,因而灵敏度较低 (2)只能作单因素比较

4、使用随机排列表进行随机分配方法举例 (二)配对设计 1.配对设计的定义

将实验对象按一定条件配成对子,在随机分配每对中的两个对象接受不同的处理方式。 2、设计步骤:

从实验对象中按配对的条件挑选对子 用随机排列表确定对子中观察对象的组别 配对条件—影响实验效应的主要非处理因素

动物实验:一般考虑将种属、窝别、性别相同,年龄、体重相近 临床试验:常将性别相同,年龄相近作为配对条件 3、配对设计的优缺点

(1)在相同的样本含量条件下,检验效能比单因素设计高 (2)组间的可比性比单因素设计高

(3)但在实际工作中,配对的条件不能过多、过严; (4)自身配对实验只适用于短期或急性实验,不适用于长 期观察分析

4、观察对象的随机分配方法举例 (三)交叉设计 1、设计模式 2、优点

(1)节约样本含量

(2)能控制时间因素和个体差异对处理因素的影响

(3)在临床试验,此设计使每个观察对象同时接受实验因素和对照因素,符合医德 3、注意事项

(1)交叉设计不适合病程短的急性病的临床试验研究,即交叉设计只适合病程相对较长的疾病。(2)交叉设计实验应尽可能采用盲法。 4、观察对象的随机分配方法举例

四、配伍组设计(随机区组设计) 配对设计的扩大 1、设计步骤

将受试对象按一定条件划分成配伍组(每个配伍组的例数等于处理组个数) 再将每一配伍组的各受试者随机分配到各个处理组中。 配伍条件同配对设计 2、优点

(1)组间的可比性增强 (2)可以分析两个因素 3、缺点

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。 35

2007级预防行政班

不能分析交互作用

4、观察对象的随机分配方法举例

好的爱情是你通过一个人看到整个世界,坏的爱情是你为了一个人舍弃世界。36

百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典综合文库卫生统计学复习资料在线全文阅读。

卫生统计学复习资料.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.70edu.com/wenku/182476.html(转载请注明文章来源)
Copyright © 2020-2025 70教育网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:370150219 邮箱:370150219@qq.com
苏ICP备16052595号-17
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:7 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219