4、统计
(1)三种抽样方法
①简单随机抽样
简单随机抽样是一种最简单、最基本的抽样方法.抽样中选取个体的方法有两种:放回和不放回.我们在抽样调查中用的是不放回抽取.
简单随机抽样的特点:被抽取样本的总体个数有限.从总体中逐个进行抽取,使抽样便于在实践中操作.它是不放回抽取,这使其具有广泛应用性.每一次抽样时,每个个体等可能的被抽到,保证了抽样方法的公平性.
实施抽样的方法:抽签法:方法简单,易于理解.随机数表法:要理解好随机数表,即表中每个位置上等可能出现0,1,2,…,9这十个数字的数表.随机数表中各个位置上出现各个数字的等可能性,决定了利用随机数表进行抽样时抽取到总体中各个个体序号的等可能性.
②系统抽样
系统抽样适用于总体中的个体数较多的情况.
系统抽样与简单随机抽样之间存在着密切联系,即在将总体中的个体均分后的每一段中进行抽样时,采用的是简单随机抽样.
系统抽样的操作步骤:第一步,利用随机的方式将总体中的个体编号;第二步,将总体的编号分段,要确定分段间隔
,当
(N为总体中的个体数,n为样本容量)是整数时,
;当
不是整数时,通过从总体中剔除一些个体使剩下的个体个数N能被n整除,这时
;第三步,在第一段用简单随机抽样确定起始个体编号
,再按事先确定的规则抽取样本.通常是将
加上间隔k得到第2个编号
,将
加上k,得到第3个编号
,这样继续下去,直到获取整个样本.
③分层抽样
当总体由明显差别的几部分组成时,为了使抽样更好地反映总体情况,将总体中各个个体按某种特征分成若干个互不重叠的部分,每一部分叫层;在各层中按层在总体中所占比例进行简单随机抽样.
分层抽样的过程可分为四步:第一步,确定样本容量与总体个数的比;第二步,计算出各层需抽取的个体数;第三步,采用简单随机抽样或系统抽样在各层中抽取个体;第四步,将各层中抽取的个体合在一起,就是所要抽取的样本.
(2)用样本估计总体
样本分布反映了样本在各个范围内取值的概率,我们常常使用频率分布直方图来表示相应样本的频率分布,有时也利用茎叶图来描述其分布,然后用样本的频率分布去估计总体分布,总体一定时,样本容量越大,这种估计也就越精确.
①用样本频率分布估计总体频率分布时,通常要对给定一组数据进行列表、作图处理.作频率分布表与频率分布直方图时要注意方法步骤.画样本频率分布直方图的步骤:求全距→决定组距与组数→分组→列频率分布表→画频率分布直方图.
②茎叶图刻画数据有两个优点:一是所有的信息都可以从图中得到;二是茎叶图便于记录和表示,但数据位数较多时不够方便.
③平均数反映了样本数据的平均水平,而标准差反映了样本数据相对平均数的波动程度,其计算公式为
. 有时也用标准差的平方---方差来代替标准差,两者实质上是一样的.
(3)两个变量之间的关系
变量与变量之间的关系,除了确定性的函数关系外,还存在大量因变量的取值带有一定随机性的相关关系.在本章中,我们学习了一元线性相关关系,通过建立回归直线方程就可以根据其部分观测值,获得对这两个变量之间的整体关系的了解.分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘估计求出回归直线方程.通常我们使用散点图,首先把样本数据表示的点在直角坐标系中作出,形成散点图.然后从散点图上,我们可以分析出两个变量是否存在相关关系:如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,其对应的方程叫做回归直线方程.在本节要经常与数据打交道,计算量大,因此同学们要学会应用科学计算器.
(4)求回归直线方程的步骤:
第一步:先把数据制成表,从表中计算出
;
第二步:计算回归系数的a,b,公式为
第三步:写出回归直线方程
.
(4)独立性检验
①
列联表:列出的两个分类变量
和
,它们的取值分别为
和
的样本频数表称为
列联表1
|
分类 |
|
|
总计 |
|
|
|
|
|
|
|
|
|
|
|
总计 |
|
|
|
构造随机变量
(其中
)
得到
的观察值
常与以下几个临界值加以比较:
如果
,就有
的把握因为两分类变量
和
是有关系;
如果
就有
的把握因为两分类变量
和
是有关系;
如果
就有
的把握因为两分类变量
和
是有关系;
如果低于
,就认为没有充分的证据说明变量
和
是有关系.
②三维柱形图:如果列联表1的三维柱形图如下图
由各小柱形表示的频数可见,对角线上的频数的积的差的绝对值
较大,说明两分类变量
和
是有关的,否则的话是无关的.
重点:一方面考察对角线频数之差,更重要的一方面是提供了构造随机变量进行独立性检验的思路方法。
③二维条形图(相应于上面的三维柱形图而画)
由深、浅染色的高可见两种情况下所占比例,由数据可知
要比
小得多,由于差距较大,因此,说明两分类变量
和
有关系的可能性较大,两个比值相差越大两分类变量
和
有关的可能性也越的.否则是无关系的.
重点:通过图形以及所占比例直观地粗略地观察是否有关,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法。
④等高条形图(相应于上面的条形图而画)
由深、浅染色的高可见两种情况下的百分比;另一方面,数据
![]()
![]()
要比
小得多,因此,说明两分类变量
和
有关系的可能性较大,
否则是无关系的.
重点:直观地看出在两类分类变量频数相等的情况下,各部分所占的比例情况,是在图2的基础上换一个角度来理解。
3.概率
(1)事件与基本事件:
![]()
基本事件:试验中不能再分的最简单的“单位”随机事件;一次试验等可能的产生一个基本事件;任意两个基本事件都是互斥的;试验中的任意事件都可以用基本事件或其和的形式来表示.
(2)频率与概率:随机事件的频率是指此事件发生的次数与试验总次数的比值.频率往往在概率附近摆动,且随着试验次数的不断增加而变化,摆动幅度会越来越小.随机事件的概率是一个常数,不随具体的实验次数的变化而变化.
(3)互斥事件与对立事件:
|
事件 |
定义 |
集合角度理解 |
关系 |
|
互斥事件 |
事件 |
两事件交集为空 |
事件 事件 |
|
对立事件 |
事件 |
两事件互补 |
(4)古典概型与几何概型:
古典概型:具有“等可能发生的有限个基本事件”的概率模型.
几何概型:每个事件发生的概率只与构成事件区域的长度(面积或体积)成比例.
两种概型中每个基本事件出现的可能性都是相等的,但古典概型问题中所有可能出现的基本事件只有有限个,而几何概型问题中所有可能出现的基本事件有无限个.
(5)古典概型与几何概型的概率计算公式:
古典概型的概率计算公式:
.
几何概型的概率计算公式:
.
两种概型概率的求法都是“求比例”,但具体公式中的分子、分母不同.
(6)概率基本性质与公式
①事件
的概率
的范围为:
.
②互斥事件
与
的概率加法公式:
.
③对立事件
与
的概率加法公式:
.
(7)
如果事件A在一次试验中发生的概率是p,则它在n次独立重复试验中恰好发生k次的概率是pn(k) = C
pk(1―p)n―k. 实际上,它就是二项式[(1―p)+p]n的展开式的第k+1项.
(8)独立重复试验与二项分布
①.一般地,在相同条件下重复做的n次试验称为n次独立重复试验.注意这里强调了三点:(1)相同条件;(2)多次重复;(3)各次之间相互独立;
②.二项分布的概念:一般地,在n次独立重复试验中,设事件A发生的次数为X,在每次试验中事件A发生的概率为p,那么在n次独立重复试验中,事件A恰好发生k次的概率为
.此时称随机变量
服从二项分布,记作
,并称
为成功概率.