查看“︁高中数学/概率与统计/抽样方法与对总体的估计”︁的源代码
←
高中数学/概率与统计/抽样方法与对总体的估计
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
== 阅读指南 == [[File:Crystal Clear app gnome.png | Crystal Clear app gnome | 50px]] === 预备知识 === === 考试要求 === === 后续课程联系 === == 基础知识 == === 知识引入 === 由初中/国中阶段的数学知识可知,考察数据的形式分为普查和抽查。从'''总体'''('''statistical population''')或者叫'''母体'''<ref name="陈希孺_1992_总体和样本的概念" />中调查到或取出的个体都被叫做'''样本''',抽出的样本多少叫做'''样本容量'''。由于许多实际问题所涉及的总体容量较大,抽查往往比普查更为可行。这一节,我们先介绍几种不同类型的抽样方法,其次再谈论从样本可得到的统计信息能不能代替所调查总体的特征。 === 抽样方法的细分 === <blockquote style="padding: 1em; border: 2px dotted;"> <font color="#008000"> 常见抽样方法包括<ref name="人教社大纲版数学_2004_抽样方法">{{cite book |title=数学 |author=人民教育出版社中学数学室 |series=全日制普通高级中学教科书 (选修) |volume=第3册 (选修2) |publisher=[[w:人民教育出版社|人民教育出版社]] |location=中国北京沙滩后街55号 |edition=1 |isbn=7-107-17448-7 |section=第1章“概率与统计”第2部分“统计”第1.3节“抽样方法” |pages=18-24 |language=zh-cn |year=2004}}</ref>: * '''简单随机抽样'''('''simple random sampling'''):从一个个体数目为N的总体中,逐次地抽样,每次抽取1个样本,并且每次能被抽取的各个个体被抽到的概率相等。 * '''系统抽样'''('''systematic sampling''')或'''机械抽样''':将总体分成均衡的几个部分,然后对其中每一部分分别抽取1个个体,共同组成获得的样本。 * '''分层抽样'''('''stratified sampling'''):当总体由差异明显的几部分组成时,按各部分所占比例进行分别抽样,再汇总抽取到的结果。所划分出来的每个部分都叫做一个'''层'''。 </font> </blockquote> [[File:Crystal Clear action info.png | Crystal Clear action info | 50px]] 提示:简单随机抽样并未严格限定在抽取过程中,是否需要放回已抽中过的样本。事实上,在数理统计学中,我们总是假定总体是无限容量的,此时即使是无放回的抽样也不会影响总体的概率分布<ref name="陈希孺_1992_总体和样本的概念">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.2小节“总体”和第4.1.3小节“样本” |pages=152-156 |language=zh-cn |year=1992}}</ref>。在高中阶段一般都是考虑总体容量为无限的常见情形<ref name="人教社大纲版数学_2004_抽样方法" />。使用[[w:重抽样|重复抽样法]](resampling)可以模拟大容量的总体,这也是[[w:机器学习|机器学习]]中应对样本容量偏小问题的常见解决做法(特别是应用于[[w:交叉验证|交叉验证]]中)。 [[File:Crystal Clear action info.png | Crystal Clear action info | 50px]] 提示:还有一些其它抽样方法没有被列入高中的数学知识学习范围,例如在市场调研中应用广泛的成簇抽样(cluster sampling)法。 三种抽样方法的比较如下<ref name="人教社大纲版数学_2004_抽样方法" />: {| class="wikitable" |- ! 类别 !! 共同点 !! 各自特点 !! 相互联系 !! 适用范围 |- | 简单随机抽样 | rowspan="3" | 抽样过程中每个个体被抽取的概率相等 | 从总体中逐个抽取 || || 总体中的个体数较少 |- | 系统抽样 || 将总体均分成几部分,然后分别抽取 || 在起始部分抽样时采用简单随机抽样 || 总体的个体数较多 |- | 分层抽样 || 将总体按明显差异分成几层,然后分层抽取 || 各层抽样时采用简单随机抽样或系统抽样 || 总体由差异特别明显的几部分组成 |} === 样本的数字统计量与矩 === 先前提及[[高中数学/统计与概率/大数定律与蒙特卡罗方法|大数定理]]时也粗略地讲过,当使用次数无限增大时,试验发生的频率能够严格地逼近真实的概率。这是因为当试验次数无限增大时,能尽可能减少抽样造成的随机性误差。除了事件发生的概率,我们同样也希望通过计算样本的平均值、方差、标准差等信息,估计总体的相应信息。 为了估计总体的某种数字特征,而从样本中计算出的信息就是样本的统计量<ref name="陈希孺_1992_统计量简介">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.4小节“统计量”和第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.1小节“参数的点估计问题” |pages=157-158; 158-159 |language=zh-cn |year=1992}}</ref>。 [[File:Crystal Clear action info.png | Crystal Clear action info | 50px]] 提示:样本的统计量是样本信息的[[w:多元函数|多元函数]]。 <blockquote style="padding: 1em; border: 2px dotted;"> <font color="#008000"> 我们对样本定义下列的常用统计量: * 均值的估计量或称为'''样本均值'''('''sample mean'''):<math>\mu_{x} = x_1 + x_2 + ... + x_n</math> * 方差的估计量或称为'''样本方差'''('''sample variance'''):<math>\sigma_{x}^2 = \frac{(x_1 - \mu)^2 + (x_2 - \mu)^2 + ... + (x_n - \mu)^2}{n-1}</math> </font> </blockquote> [[File:Crystal Clear app error.png | Crystal Clear app error | 50px]] 注意:这种基于样本的方差估计量也叫做'''修正样本方差'''。请注意它与总体的方差计算方式是不一样的,分母部分不是样本数n,而是n-1。它并非是将样本看成是总体时的方差,而是基于样本信息定义的一种对总体方差的估计量。样本的方差估计量也并非只能这样规定<ref name="陈希孺_1992_统计量的比较">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第4章“参数估计”第4.3节“点估计的优良性准则”第4.3小节“点估计优良性准则” |pages=174-175 |language=zh-cn |year=1992}}</ref>,这只是样本的方差估计量的常用定义。 [[File:Crystal Clear app games.png | Crystal Clear app games | 50px]] 玩笑:矩是一个由来说法比较复杂的概念。统计学家们认为它来源于物理学,但是物理学家们认为它来源于统计学。 至于为什么要将样本方差的分母取为n-1而不是像总体方差一样取为n,这涉及到多种估计量的比较。为此,下面我们先介绍矩和矩估计的概念: <blockquote style="padding: 1em; border: 2px dotted;"> <font color="#008000"> 设随机变量X取值为<math>X_1, X_2, \cdots, X_n, \cdots</math>时的取值依次为<math>p_1, p_2, \cdots, p_n, \cdots</math>,c为常数,k为正整数,则下列统计量叫做'''总体(即随机变量的)分布的k阶矩''': :<math>p_1 (X_1 - c)^k + p_2 (X_2 - c)^k + ... + p_n (X_n - c)^k + \cdots</math> 当c取0时,上述式子叫做'''样本的k阶原点矩''';当c为均值<math>\mu</math>时,上述式子叫做'''样本的k阶中心矩'''。随机变量的数学期望和方差都是总体分布的矩。 </font> </blockquote> 换句话说,设X为随机变量,c为常数,k为正整数,则量<math>E[(X-c)^k]</math>称为'''X关于点c的k阶矩'''('''the n-th moment of X about a point c''')。c=0时,<math>E(X^k)</math>称为X的k阶原点矩;c=EX时(EX是一个常数),<math>E[(X-EX)^k]</math>称为X的k阶中心矩。<ref name="陈希孺_1992_随机变量的矩">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第3章“随机变量的数字特征”第3.2节“方差与矩”第3.2.2小节“矩” |pages=132-133 |language=zh-cn |year=1992}}</ref> 我们对样本也定义类似的概念: <blockquote style="padding: 1em; border: 2px dotted;"> <font color="#008000"> 设<math>X_1, X_2, X_3</math>为一组样本,k为正整数,c为常数,下列统计量叫做'''k阶样本矩'''<ref name="陈希孺_1992_统计量简介" />: :<math>\frac{(X_1 - c)^k + (X_2 - c)^k + ... + (X_n - c)^k}{n}</math> c取0时,上述式子叫做'''k阶样本原点矩''';c取为该组样本均值<math>\bar{X}</math>时,上述式子叫做'''k阶样本中心矩'''。一组样本的数学期望和方差都是样本的矩。 </font> </blockquote> [[File:Crystal Clear action info.png | Crystal Clear action info | 50px]] 提示:对于总体概率分布,我们总能从形式上定义其中无穷项的和作为矩(假设求和的结果是一个有限的定值)。但是对于样本而言,由于我们在现实世界中操作时不可能做到无限地抽样,所以只能对有限个样本定义矩。 如果使用样本平均值的矩代表未知总体的矩,或者使用样本方差的矩代表未知总体的方差,这种做法就叫做未知参数的'''矩估计法'''。一般来说,由于抽样时随机误差的存在,样本一般不能完全代表总体的信息,所以样本的矩与总体的矩算出来一般是不同的。不过,当抽取的样本容量很大时,可以想象样本的矩有很大可能性趋近于总体的矩。<ref name="陈希孺_1992_矩估计法">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第4章“参数估计”第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.2小节“矩估计法” |pages=159-162 |language=zh-cn |year=1992}}</ref> === 无偏估计与自由度修正 === <blockquote style="padding: 1em; border: 2px dotted;"> <font color="#008000"> 当不论参数取何值时,如果都存在一个只与样本信息有关的统计量<math>g(X_1, X_2, ...)</math>,使其计算结果的均值<math>E(g(X_1, X_2, ...))</math>等于总体的数字特征G,我们就称<math>g(X_1, X_2, ...)</math>是G的'''无偏差估计量'''('''unbiased estimator''')或'''无偏估计值'''('''unbiased estimated value'''),简称'''无偏估计'''。<ref name="陈希孺_1992_估计量的无偏性">{{cite book |title=概率论与数理统计 |author=[[w:陈希孺|陈希孺]] |editor= |series= |publisher=中国科学技术大学出版社 |location= |edition=1 |isbn=9787312003493 |section=第4章“参数估计”第4.3节“点估计的优良性准则”第4.3.1小节“估计量的无偏性” |pages=175-179 |language=zh-cn |year=1992}}</ref> </font> </blockquote> 更通俗地讲,如果所有可能样本的某一统计量的平均数等于总体的相应参数,则称该统计量为总体相应参数的无偏估计值<ref name="李春喜_2008_无偏估计" />。我们先通过实例计算说明无偏估计的含义,再通过公式演算论证样本均值和方差估计公式的无偏性。 设有一个随机变量可以等可能性地随机取得3、4、5这3个数值,易知其期望值<math>\mu = 4</math>,方差<math>\sigma^2 \approx 0.6667</math>,标准差<math>\sigma \approx 0.8165</math>。如果每次独立、有放回地从中抽取2个值,总共可以得到<math>N^n = 3^2 = 9</math>种不同的结果。其抽样结果以及我们后续讨论所需的相关量可以列举如下<ref name="李春喜_2008_无偏估计" />: {| class="wikitable" |- ! 样本组编号 !! 各组的2个具体样本值 !! 平均值估计量(样本方差)<math>\mu = \bar{x}</math> !! 方差估计量(样本方差)<math>s_x^2</math> !! 方差估计量的算术平均数<math>s_x</math> |- | 1 || 3, 3 || 3.0 || 0.0 || 0.000 |- | 2 || 3, 4 || 3.5 || 0.5 || 0.7071 |- | 3 || 3, 5 || 4.0 || 2.0 || 1.4142 |- | 4 || 4, 3 || 3.5 || 0.5 || 0.7071 |- | 5 || 4, 4 || 4.0 || 0.0 || 0.0000 |- | 6 || 4, 5 || 4.5 || 0.5 || 0.7071 |- | 7 || 5, 3 || 4.0 || 2.0 || 1.4142 |- | 8 || 5, 4 || 4.5 || 0.5 || 0.7071 |- | 9 || 5, 5 || 5.0 || 0.0 || 0.0000 |- | 汇总 || || 36.0 || 6.0 || 5.6568 |} 根据上表中的数据,可以进而求出<ref name="李春喜_2008_无偏估计" />: {| class="wikitable" |- ! 样本统计量的计算及其与真实总体参数值的比较(仅取近似值) !! 初步结论 |- | 样本平均数<math>\bar{x}</math>的平均数<math>\mu_{\bar{x}} = \frac{36}{9} = 4 = \mu</math> || 样本平均数就是总体的平均数的期望,或者说是其无偏估计 |- | 样本方差<math>s_x^2</math>的平均数<math>\mu_{s_x^2} = \frac 6 9 \approx 0.6667 \approx \sigma^2</math> || 样本方差就是总体的平均数的期望,或者说是其无偏估计 |- | 样本方差算术平方根<math>s_x</math>的平均数<math>\mu_{s_x} \approx \frac{5.6568}{9} \approx 0.6285 \neq 0.8165 \approx \sigma</math> || 样本方差的平方根不是总体的平均数的期望,或者不是其无偏估计 |} [[File:Crystal Clear app error.png | Crystal Clear app error | 50px]] 注意:(1)统计量的无偏性是从统计平均意义上而言的。对于单次抽到的样本,其计算出的无偏估计量是有可能受随机误差的影响而偏移总体参数的。但是如果我们对无偏估计量在各个可能抽到的样本之下求得期望值,就会发现计算结果等于总体参数,即体现了其无偏性。(2)无偏性保证的是单次测量中[[w:系统误差|系统误差]]的消除,但是不能消除每一次测量时的[[w:随机误差|随机误差]],随机误差的抵消仍然需要通过大量重复进行抽样过程然后取平均值(期望)。<ref name="陈希孺_1992_估计量的无偏性" /> 接下来,我们证明之前规定的样本均值和样本方差计算公式的无偏性<ref name="陈希孺_1992_估计量的无偏性" />:<br /> <math> \begin{array}{l} E(EX) = E (\frac{X_1 + X_2 + ... + X_n}{n}) \\ = \frac{EX_1 + EX_2 + ... + EX_n}{n} \\ = \frac{\mu + \mu + ... + \mu}{n} = \frac{n \mu}{n} = \mu \end{array} </math> <blockquote style="padding: 1em; border: 2px dotted;"> [[File:Crystal Project Warehause.png | Crystal Project Warehause | 50px]] 关于样本分布,我们有下列结论<ref name="李春喜_2008_无偏估计">{{cite book |title=生物统计学 |author1=李春喜 |author2=邵云 |author3=姜丽娜 |editor= |series=普通高等教育“十一五”国家级规划教材 |publisher=科学出版社 |location=中国北京东黄城根北街16号 |edition=4 |isbn=978-7-03-021573-4 |section=第3章“概率与概率分布”第3节“统计数的分布”中“一、抽样试验与无偏估计”部分 |pages=41-42 |language=zh-cn |year=2008}}</ref>: * 样本平均数<math>\bar{x}</math>是总体平均数<math>\mu</math>的无偏估计值。 * 样本方差<math>s^2</math>是总体方差<math>\sigma^2</math>的无偏估计值。 * 样本方差的算术平均数不是总体标准差<math>\sigma</math>的无偏估计值。 </blockquote> [[File:Crystal Clear action info.png | Crystal Clear action info | 50px]] 提示:样本方差的算术平均数虽然不是总体标准差的无偏估计值,但是将其乘以一个与样本容量有关的系数因子补救后,仍可以作为对总体标准差的无偏估计量。<ref name="陈希孺_1992_估计量的无偏性" /> 习惯上,将样本统计量中独立变化的变数数目叫做该统计量的'''自由度'''('''free degree''')。我们看到,样本方差的公式只是对总体方差公式中的自由度进行了调整,即成为了其无偏估计量。这种简单但是管用的做法叫做对自由度的'''修正'''('''correction''')。 === 标准得分 === == 补充习题 == [[File:Crystal Clear app ksirtet.png | Crystal Clear app ksirtet | 50px]] [[File:Crystal Clear app laptop battery.png | Crystal Clear app laptop battery | 50px]] == 参见 == * [[高中数学/概率与统计/联合分布的协方差与相关系数|联合分布的协方差与相关系数]] * [[高中数学/概率与统计/列联表与两套分类标准的独立性检验简介|列联表与两套分类标准的独立性检验简介]] * [[高中数学/概率与统计/一元连续性样本数据的差异显著性检验简介|一元连续性样本数据的差异显著性检验简介]] * [[統計學/統計抽樣]] * [[統計學/抽样分布与抽样误差]] == 参考资料 == {{Reflist}} == 外部链接 == {{Wikipedia|抽样}} {{Wikipedia|参数估计}} {{Wikipedia|矩 (数学)}} {{Wikipedia|样本均值}} {{Wikipedia|样本方差}} {{Wikipedia|估计量的偏差}} {{Wikipedia|自由度 (统计学)}} {{Wikipedia|标准得分}} {{DEFAULTSORT: sampling methods and estimation methods of population parameters}} [[category:统计学]] [[category:高中数学]]
该页面使用的模板:
Template:Cite book
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Wikipedia
(
查看源代码
)
返回
高中数学/概率与统计/抽样方法与对总体的估计
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息