高中数学/概率与统计/离散型随机变量的分布列及其数字特征
阅读指南
注意:与先前一样,本节中用到的组合数符号是沿袭自苏俄的符号习惯,表示从n个元素中取出k个元素的取法数;如果换成欧美常见的符号,应该改写为。
预备知识
考试要求
后续课程联系
基础知识
知识引入
随机变量与分布列的概念
我们可以将随机试验的结果看成一个变量,而相关的概率表达式就是该结果的函数。代表随机试验结果的变量就叫做随机变量(random variable)或译为随机变数。 如果随机变量的可能取值可以按一定的顺序一一列出,这样的变量就叫做离散型(discrete)随机变量。[1]
提示:(1)随机变量也被看成是样本空间(事件集合)的函数,此时仍将其称为“变量”只是沿袭以前的习惯性称呼[2]。(2)与我们熟悉的欧氏空间不同,概率论中所说的样本空间只是一个描述事件集合的数学概念,它可以仅包含离散的点或有限个点[3]。
我们可以通过一个表格列出某个离散型随机变量所有可能取值及其相应概率,这样的表格叫做相应随机变量的概率分布列(probability distribution series)、概率分布或简称为分布列[1]。随机变量常用等字母表示[4]。
离散型随机变量的概率分布也可以通过分段函数表达式和图象展示的方法表示[4]。
提示:希腊文小写字母ξ的国际音标为[ksɪ],η的国际音标为[i](古希腊语发音)、[ˈiːtə](英式英语发音)或[ˈeɪtə](美式英语发音)。但有的高中教科书只介绍美式读音[1]。
随机的变量取值为a的概率,在有的教科书上采用圆括号记为,有的则采用花括号记为。使用哪种记法一般都没有问题。
回答:这是一个意义不大的问题,但是统计学里的确有专门的概念描述这种平凡无奇的分布,它描述的是几乎确定的事件。这样的分布被叫做“单点分布”或“(一维的)退化分布”(degenerate distribution)[5]。需要注意的是,由几何概率模型中的许多例子可知,概率为1的事件并不代表就是必然事件。
伯努利两点分布与二项分布

以雅各布·伯努利命名的伯努利试验(Bernoulli trial)是一种只有2种可能性的试验,由成功发生的概率p这一个参数唯一确定。[6]
提示:有的概率论教科书上将这类只有2种结果的试验的重复多次过程定义为伯努利试验[7]。
提示:如果随机变量满足某种概率分布,那么我们也说此随机变量服从这种分布。
如果随机变量的取值只有0和1这2个值,此时的概率分布叫做两点分布(two-point distribution)、0-1分布。由于这种分布来自于伯努利试验,它也叫做伯努利分布,其中随机变量X取1的概率也被叫做成功概率(probability of success)。[4]
在单次随机试验中,某事件可能发生,也可能不发生。在n次独立重复事件中这个事件发生的次数是一个随机变量,可记为。根据重复独立试验的概率知识,我们知道如果在单次试验中某事件发生的概率是p,那么在n次独立重复事件中这个事件恰好发生k次的概率是[1]:
由于其中的各项刚好是二项展开公式中的各个项对应,所以也将其称为二项分布(binomial distribution),记作[1]。并记[1]。沿用伯努利试验中的术语,其中的概率p仍叫做成功概率[4]。
几何分布
在独立重复试验中,某事件第一次发生时所作试验的次数也是一个随机变量,可以记为。例如“”表示在第k次独立重复试验时,事件才第一次发生,在之前k - 1次试验中都没有发生。如果把第k次试验时事件E发生记为,不发生记为,且,则有[1]:
容易看出,此时的概率主要是随p的值呈几何式变化的。
如果设某个随机变量代表在独立重复试验时第一次发生的概率,那么它的对应概率分布就叫做几何分布(geometric distribution)。[1]
超几何分布
在总共含有M件次品的N件产品中任取出n件,其中抽到的次品数记为X,则事件P{X=k}的概率为:
我们将此情形中X的概率分布叫做超几何分布(hypergeometric distribution)。[4]
总体的数学期望
如果离散型随机变量的所有可能取值是,并且取这些值的对应概率分别是,那么我们将下列的量定义为为的数学期望(mathematical expectation)或简称为期望、平均值(mean)[8]:
数学期望的概念起源于著名的点数分配问题。法国文人夏瓦列·德梅尔(Chevalier de Méré,1607年-1684年)曾向布莱兹‧帕斯卡(Blaise Pascal,1623年-1622年)询问有关在点数分配游戏中如何实现公平奖励的古老问题,而帕斯卡在与皮埃尔·德·费马(Pierre de Fermat,1607年-1665年)的书信讨论中逐渐萌生出数学期望的定义。
总体的方差与标准差
如果离散型随机变量的所有可能取值是,并且取这些值的对应概率分别是,那么我们将下列的量定义为随机变量的方差(variance)[8]:
随机变量X的方差有时也记作[10]。随机变量方差的算术平方根叫做标准差(standard deviation),记作[8]。
方差和标准差都反应了随机变量取值的波动大小,或者说反应了其分散程度[8]。当均值不为零时,标准差与均值的比值也叫做变异系数(coefficient of variation),是以均值为单位来衡量的随机变量的偏离情况[11]。
注意:(1)与数学期望的符号相似,和也都不是表示某种乘积。(2)随机变量的方程公式虽然来源于初中/国中数学中介绍过的原始公式,但是从现在开始,我们要明确区分来自总体数据的方差和来自抽样数据的方差。之后将会看到,我们可能会为它们规定略为不同的计算公式。
知识背景:另一种更一般化的对总体方差的定义是。[10]
提示:利用公式计算随机变量的方差比直接利用方差的原始定义更方便。[10]
总体的其它常用统计量
Template:More 其它可以从整体上描述一个概率分布的常用统计量包括最大值、最小值、极差、中位数、众数、四分位数、代数平均数(即加权平均数)、几何平均数以及马上要介绍的调和平均数。
若a, b > 0,那么我们定义其调和平均数(harmonic mean)m为。
提示:数学中经常出现的“调和”或译为“和谐”的概念来自毕达哥拉斯学派的数秘学信仰,参见数学神秘主义。
提示:对于保护无限数量个体的总体,其众数可以理解为相应概率最大的数。
上述统计量都是从早期的朴素统计方法中借鉴而来的,都被称为描述概率分布的数字特征。概率论与统计学后来在发展中相互促进,又诞生了数理统计学[12]。在数理统计学中,众数、中位数、多种平均数都能描述数据的某种居中特性,所以都被视为更一般意义上的平均数;极差、方差和标准差则不同程度地刻画了数据的偏离程度,被称为变异数或差异数(variance)[13]。更准确地说,平均数和差异数在统计学中都被称为“矩”(moment)或“动差”,具有一个形式上更统一的表达形式,而且它们正好构成矩的两大类。我们会在后面的抽样方法与对总体的估计章节更正式地介绍矩。
计算机技术辅助
Mathematica
Python
补充习题
- 罗马尼亚彩票专家斯特凡-曼德尔(Stefan Mandel)曾借助数学计算分析彩票胜率,创下中14次头奖的纪录。查阅相关资料,了解早期彩票的漏洞以及各个彩票管理机构的应对措施。[14][15][16]
参见
参考资料
外部链接
Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia Template:Wikipedia
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ 4.0 4.1 4.2 4.3 4.4 Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ 8.0 8.1 8.2 8.3 8.4 8.5 Template:Cite book
- ↑ 9.0 9.1 9.2 9.3 9.4 9.5 Template:Cite book
- ↑ 10.0 10.1 10.2 10.3 10.4 10.5 Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite book
- ↑ Template:Cite web
- ↑ Template:Cite web
- ↑ Template:Cite web