Skip to content

分布

分布是随机变量的取值与其对应概率的关系

例如,抛硬币试验中,设反面为 0,正面为 1,随机变量 X 为抛出硬币的数值,X 的分布如表所示

X 取值 概率
0 1/2
1 1/2

又如,掷骰子试验中,随机变量 Y 为抛出的点数,Y 的分布如表所示

Y 取值 概率
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6

利用分布,可以计算出随机变量的期望和方差

等概率分布

抛硬币是概率论中最常见的随机试验,不仅因为硬币很常见,也因为抛硬币试验中,随机变量的分布是最简单的等概率分布

等概率分布,顾名思义,就是随机变量每一个取值的出现概率都相等。

P(X = a_k) = 1/n, k = 1, 2, \cdots, n
E(X) = (a_1 + a_2, + \cdots + a_n) / n = \sum_{k=1}^n a_k/n
Var(X) = \sum_{k = 1}^n(a_k - E(X))^2 / n

几何分布

仍以抛硬币为例,已知出现正反两面的概率各为 1/2,在反复抛硬币的过程中,我们设定随机变量 X 表示第一次出现反面时抛硬币的次数,我们列出 X 的概率分布,如表所示

X P(X)
1 1/2
2 (1/2) \times (1/2) = 1/4
3 (1/2) \times (1/2) \times (1/2) = 1/8
4 (1/2) \times (1/2) \times (1/2) \times (1/2) = 1/16
...

用数学公式来表达为

P(X=k) = (1/2)^{k-1} \times (1/2), k = 1, 2, 3, \cdots

式中,(1/2)^{k-1} 表示前 k-1 次都是正面,乘号后面的 1/2 表示第 k 次是反面

以骰子游戏为例,设定随机变量 Y 表示第一次出现六点时抛掷骰子的次数,列出 Y 的概率分布

Y P(Y)
1 1/6
2 (5/6) \times (1/6) = 5/36
3 (5/6) \times (5/6) \times (1/6) = 25/216
4 (5/6) \times (5/6) \times (5/6) \times (1/6) = 125/1296
...

用数学公式来表达为

P(Y=k) = (5/6)^{k-1} \times (1/6), k = 1, 2, 3, \cdots

式中,(5/6)^{k-1} 表示前 k-1 次都不是六点,1/6 表示第 k 次是六点

设随机试验只有两种结果 A 和 B,A 出现的概率是 p,B 出现的概率是 1-p,反复进行该随机试验,随机试验之间彼此独立,随机变量 X 表示 A 第一次出现时随机试验进行的次数,此时我们称随机变量 X 服从几何分布

P(X=k) = (1-p)^{k-1} \cdot p, k = 1, 2, 3, \cdots
E(X) = 1/p
Var(X) = (1-p)/p^2

二项分布

二项分布来源于伯努利试验,所谓伯努利试验就是只有两种可能结果的随机试验,比如抛硬币。

当一个伯努利试验独立地重复进行 n 次时,几何分布只能告诉我们第一次何时发生,二项式分布则可以告诉我们各种可能的结果发生的概率。

设伯努利试验有两种可能结果 A 和 B,事件 A 发生的概率是 p,事件 B 发生的概率是 1-p,独立地重复进行 n 次试验,设随机变量 X 表示事件 A 发生的次数,我们称随机变量 X 服从参数为 n, p 的二项分布,记为 X~b(n, p) 并且

P(X = k) = C_n^k \cdot (1-p)^{n-k} \cdot p^k
E(X) = np
Var(X) = np(1-p)

泊松分布

如果你每天走在路上,被鸟粪砸中的概率刚好是 1/365,你一年里一次都没被砸中的概率是多少?

如果飞机失事的概率是百万分之一,你坐一百万次飞机还没遇到事故的概率是多少?

答案都是 37%

神奇的常数 e

37%,这个数字对大多数人来说很陌生,或许只有数学家才会知道,这个数字正是 1/e 的值。e 是自然对数底,是个无限不循环小数,数值为 2.7182\cdots。提起数学中的常数,大多数人首先想到 \pi,其实自然对数底 e 也是数学世界中十分重要的常数。

通过一个复利小故事来了解 e 的由来

有一天,一个生意人急着用钱,便向一个财主借钱。财主见生意人十分着急,便趁机抬高利息,他开出的条件是,生意人每借 1 两银子,就要在一年后还 2 两银子,利率高达 100%!正在生意人犹豫不决之时,财主又有了一个主意,他想,如果改成半年的利率 50%,还是借一年,那么,半年后可以得到 1.5 两银子,一年后就可以得到 2.25 两银子,这样赚的更多!他赶紧收回了此前的条件,改成了半年还钱的新条件。可是,话刚说完,他就又后悔了。既然半年还钱比一年还钱赚得更多,那为何不改为每月还钱、每周还钱、每天还钱呢?于是财主赶紧回屋拿起笔来算一算

半年还一次,利率 50%,还钱总数是 (1 + 0.5)^2 = 2.25(两)
每月还一次,利率 1/12,还钱总数是 (1 + 1/12)^{12} = 2.6130(两)
每周还一次,利率 1/52 ,还钱总数是 (1 + 1/52)^{52} = 2.6926(两)
每天还一次,利率 1/365,还钱总数是 (1 + 1/365)^{365} = 2.7146(两)

计算结果让财主十分失望,还钱总数并没有预想的那么多。如果我们把每天再拆成每一小时,每一分钟、每一秒钟,还钱总数会增长的更加缓慢,最终会越来越接近神奇的自然对数底 e。从数学的角度来看,当 x 趋于无穷大时,(1 + 1/x)^x 的极限值正是 e。

1/e 的值是 0.3679\cdots,近似为 37%,它与小概率事件之间的神秘关系源于“小概率事件定律”。小概率事件定律,是指一个十分罕见的随机事件,几乎只发生过一次,并且今后能否再次发生难以预测,那么这个事件不再发生的概率是 1/e。

小概率事件听起来有些玄妙,其实背后也是有数学原理的,这就是泊松分布

泊松定理

设随机变量 X 服从参数为 n, p 的二项分布,其分布律为

P(X=k) = C_n^k p^k (1-p)^{n-k} (k = 0,1,2,\cdots,n)

又设 np = \lambda(\lambda > 0, \lambda 为常数),则有

\lim_{n\to \infty}C_n^k p^k (1-p)^{n-k} = \frac{\lambda ^k}{k!}e^{-\lambda}

证明:

\lim_{n\to \infty}C_n^k p^k (1-p)^{n-k}\\ = \lim_{n\to \infty}\frac{n(n-1)\cdots (n-k+1)}{k!}\cdot (\frac{\lambda}{n})^k \cdot (1 - \frac{\lambda}{n}) ^ {n - k}\\ = \lim_{n\to \infty}\frac{\lambda^k}{k!} \cdot (1 - \frac{1}{n}) \cdot (1 - \frac{2}{n}) \cdots (1 - \frac{k-1}{n}) \cdot (1 - \frac{\lambda}{n})^{-k} (1 - \frac{\lambda}{n})^{n}\\ = \lim_{n\to \infty} \frac{\lambda^k}{k!} \cdot 1 \cdot 1 \cdots 1 \cdot 1^{-k} \cdot ((1 - \frac{\lambda}{n})^{-\frac{n}{\lambda}})^{-\lambda} = \frac{\lambda^k}{k!}e^{-\lambda}

证明中用到

\lim_{n \to \infty} (1 + \frac{1}{n})^n = e

当试验的次数 n 很大,成功的概率 p 很小,\lambda = np 大小适中时,可用泊松分布来近似地计算二项分布的概率,即

C_n^k p^k (1-p)^{n-k} \approx \frac{\lambda ^k}{k!} e^{-\lambda} (k = 0, 1, 2, \cdots, n)

实际应用中,当 p \leq 0.05, n > 20, np \leq 5 时近似效果良好,这种近似会帮助我们大大简化计算过程

泊松分布

被雷劈、中彩票、飞机失事等小概率事件总是让人难以捉摸,它们很少发生,几乎无法预测,即便如此,概率统计还是有办法用数学公式来描述它们。泊松分布正是用来描述那些无法预测的小概率事件发生次数的分布,设随机变量 X 表示某事件发生的次数,若 X 服从泊松分布,则有

P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2, \cdots

则称 X 服从参数为 \lambda 的泊松分布,记为 X~P(\lambda)

公式中的 \lambda > 0 是一个常数,泊松分布的期望和方差都是 \lambda

k = 0\lambda = 1 时,P(X = 0) = 1/e,这便是小概率事件定律的数学原理

泊松分布的背景及应用

历史上,泊松分布是作为二项分布的近似于 1837 年由法国数学家泊松引入的

1) 1837 年法国数学家泊松(D.Poisson, 1781-1840)首次提出
2) 用于描述在一指定时间范围内或在一定的长度,面积,体积之内每一事件出现次数的分布
3) 泊松分布主要用于某稀疏事件在特定时间内或空间内发生的次数,泊松分布的例子:

  • 一定时间段内,某航空公司接到的订票电话数
  • 一定时间内,到车站等候公共汽车的人数
  • 一定路段内,路面出现大损坏的次数
  • 一定时间段内,放射性物质放射的粒子数
  • 一定页数的书刊上出现的错别字个数

寿命保险问题

设某保险公司的某人寿保险险种有 2500 人投保,在一年内,每个人死亡的概率为 0.002,且每个人是否死亡是相互独立的,每个参加保险的人在 1 月 1 日需交 12 元保险费,而在死亡时家属可从保险公司里领取 2000 元赔偿金。

试求:(1) 保险公司亏本的概率;(2) 保险公司获利不少于 10000 元的概率;(3) 保险公司获利不少于 20000 元的概率

解:保险公司年总收入为 2500 \times 12 = 30000 元,设 X 为 2500 个投保人中在未来一年内死亡的人数,对每个人而言,在未来一年是否死亡相当于做一次伯努利试验,2500 人就是做 2500 重伯努利试验,因此 X~b(2500, 0.002)

(1) 保险公司在这一年中应付出 2000X 元,要使保险公司亏本,则必须 2000X > 30000,即 X > 15
由此知:P(保险公司亏本) = P(X > 15) = 1 - P(X \leq 15) = 1 - \sum_{k=0}^{15} C_{2500}^k 0.002^k 0.998^{2500 - k} \approx 1 - \sum_{k=0}^{15} \frac{5^k}{k!} e^{-5} \approx 0.000069

(2) P(保险公司获利不少于 10000 元) = P(30000 - 2000X \geq 10000) = P(X \leq 10) = \sum_{k = 0}^{10} C_{2500}^k 0.002^k 0.998^{2500 - k} \approx 1 - \sum_{k=0}^{10} \frac{5^k}{k!} e^{-5} \approx 0.986305

(3) P(保险公司获利不少于 20000 元) = P(30000 - 2000X \geq 20000) = P(X \leq 5) = \sum_{k = 0}^{5} C_{2500}^k 0.002^k 0.998^{2500 - k} \approx 1 - \sum_{k=0}^{5} \frac{5^k}{k!} e^{-5} \approx 0.615961

以上结果说明“保险公司为何乐于开展保险业务”的原理

正态分布(高斯分布)