从泊松分布、泊松过程到指数分布

泊松分布

问题:假设平均每天有 $\lambda $ 人出生(假设每人最多出生一次)。今天出生人数为 $k$ 的概率多大?

我们注意到 $\lambda $ 实际上是一个数学期望值。有必要深究一下。

假如我们把一天划分为 $n$ 个时间片序列,编号 $1,2,\cdots, n$ 。每个时间片有人出生概率都是 $p$

设随机变量 $X$ 为 $n$ 个时间片中出生的人数。则如果一天有 $k$ 人出生,相当 $n$ 个时间片中 $k$ 个有人出生,剩下 $n - k$ 个无人出生。也即,$ \mathbb{P}(X = k) = {n \choose k} p^k (1 - p) ^ {n - k}$

则 $\mathbb{E}(X)$ 表示 $n$ 个时间片出生的平均人数,即 $\lambda $

$$ \begin{align} \mathbb{E}(X) &= \sum_{k = 0}^{+ \infty } x \mathbb{P}(X = x) \\ &= \sum_{k = 0}^{+ \infty } x{n \choose x}p^x(1 - p)^{n - x} \\ &= np \quad \text{(二项分布的期望)}\\ &= \lambda \end{align} $$

这里 的 $\lambda = np$ 条件,将在证明时用到

目标(今天出生人数为 $k$ 的概率) 为 $n \to \infty $ 时的 $\mathbb{P}(X = k)$ ,此时得到的分布成为泊松分布,即:

$$ \begin{align} \lim_{n \to \infty} {n \choose k} p^k (1 - p) ^ {n - k} \end{align} $$

我们将得到泊松分布列:

$$ \mathbb{P}_X(k) = \mathrm{e}^{-\lambda} \dfrac{\lambda^{k}}{k !} $$

证明如下:

证明

$$ \begin{align} &\lim_{n \to \infty} {n \choose k} p^k (1 - p) ^ {n - k} \\ & = \lim \dfrac{n !}{(n-k) ! k !} p^{k}(1-p)^{n-k} \\ & = \lim \dfrac{n(n-1) \cdots(n+k-1)}{k !} p^{k}(1-p)^{n-k} \\ 代入 p = \dfrac{n}{\lambda } & \\ &= n(n-1) \cdots(n+k-1)\left(\dfrac{\lambda}{n}\right)^{k}\left(1-\dfrac{\lambda}{n}\right)^{n-k} \\ &= \dfrac{n(n-1) \cdots(n+k-1)}{n^k} \dfrac{\lambda^{k}}{k !}\left(1-\dfrac{\lambda}{n}\right)^{n-k} \\ &= 1 \cdot \dfrac{\lambda^{k}}{k !}\left(1-\dfrac{\lambda}{n}\right)^{n} \cdot\left(1-\dfrac{\lambda}{n}\right)^{-k} \\ &= 1 \cdot \dfrac{\lambda^{k}}{2 !} e^{-\lambda} \cdot 1 \\ &= \dfrac{\lambda^{k}}{k !} e^{-\lambda} \end{align} $$

有了这个证明的印象,我们也能够更好地记忆公式。

  • 分母的 $k!$ 来源于组合数公式的分母。

  • 分子的 $\lambda ^k$ 来源于 $p^k$ 代入 $p = \lambda /n$ 后的分子。

  • $e^-\lambda $ 来源于 $(1 - p)^{n-k}$ 的求和。由于标准的 e 的求和是 $1 + \dfrac{1}{n}$ 正号,而这里是 $1 - p$ 所以有负号!

期望和方差

重申,随机变量 $X$ 代表 $n$ 个时间片事件发生 $x$ 次,由于时间片细分取极限得到单位时间,所以 $X$ 表示单位时间内时间发生的次数

期望和方差分别是:

$$ \mathbb{E}(X) = \dfrac{\lambda }{e^{-\lambda }} \quad \mathbb{V}(X) = \lambda $$
期望的推导

$$ \begin{aligned} \mathbb{E}(X) &=\sum_{x=1}^{\infty } x \mathbb{P} (X=x) \\ &=\sum_{1} x \dfrac{\lambda^{x}}{x !} e^{-\lambda} \\ &=\sum_{1} \dfrac{\lambda^{x-1} \cdot \lambda \cdot e^{-\lambda}}{(x-1) !} \\ &=\dfrac{\lambda}{e^{\lambda}} \sum \dfrac{\lambda^{x-1}}{(x-1) !} \\ &=\dfrac{\lambda}{e^{\lambda}} \cdot e ^{\lambda }= \lambda \end{aligned} $$

注意最后我们利用了 $e^x$ 的展开式。由于上面的求和是从 1 开始,而 $e^x$ 展开是从 0 开始,因此我们凑 $x - 1$。

$e^x$ 的展开式:

$$ e^{x}=\dfrac{x^{0}}{0 !}+\dfrac{x^{1}}{1 !}+\dfrac{x^{2}}{2 !} + \cdots $$

我们也可以这样推导:

二项分布的期望是 $np$,而对于泊松分布 $p = \dfrac{\lambda }{n}$。所以期望为定值 $\lambda $

方差的推导

我们在上面使用时间分 $n \to + \infty $ 片的方法,将一个二项分布逼近为了泊松分布。而二项分布的方差为 $np(1-p)$,则 $ \lim_{n \to \infty} np(1-p) = \lim_{n \to \infty} n \dfrac{\lambda }{n}(1 - \dfrac{\lambda }{n}) = \lambda $

泊松过程和 M/M/1 排队模型

上面的泊松分布只考虑了某天事件发生 $k$ 次的概率。那么如果要任意段时间 $\tau$ 事件发生的 $k$ 次的概率呢?下面开始推导。

得先明确目标。不妨设计场景吧,假设我们是银行柜台,要给到来的人办理业务。

其实这里的时间片划分和泊松分布的推导非常相似,只不过泊松分布划分的是单位时间 $1$ ,而此处划分的是任意时间段 $\tau $

定义 $\mathbb{P}(k, \tau )$ 为时间段 $\tau $ 内有 $k$ 个到达的概率。我们的目标是求出 $\mathbb{P}(k, \tau )$

我们将时间轴 $[0, \tau]$ 划分为许多个长度为 $\delta $ 的子区间。则划分的段数为 $n = \dfrac{\tau }{\delta }$

由于 $\delta $ 非常小,几乎可以认为,对于每个 $\delta $ ,其间到达的概率都相等。即,我们可以认为在每个 $\delta $ 区间进行抛硬币抽奖,抽中了,则会到达。

设此概率其为 $p = \lambda \delta $,则系数 $\lambda $ 可以反应到达的快慢,称之为 到达率,或者 强度

Q: 凭什么设为 $p = \lambda \delta $? A: 我们如果从 $n $ 个 $\delta$ 区间(总长度为 $\tau = n \delta $ )按照比例 $\lambda$ 抽取一些作为到达(如下图,淡红色代表到达),因此到达率 $\lambda$ 起始相当于抽取的占整体的比例,因此对于任意区间,被抽到的概率是 $\lambda \delta $ ,设其为 $p$ 。

poisson_process.drawio.svg

这个过程是一个二项分布。满足 $X \sim \operatorname{Binomial}(n, p)$

二项分布 $\mathbb{P}(X)$ 表示投掷硬币 $n$ 次,正面为 $X = x$ 次数

在本例中,表示在 $n $ 个 $\delta$ 抽中“到达”的个数,即 $k$ 。

$\mathbb{P}(k,\tau ) = {n \choose k} p ^ k (1 - p) ^ {n - k}$

随着 $\delta \to 0$,分段数 $n \to \infty $ ,而:

$$ np = n \lambda \delta =\lambda \tau $$

是一个定值。并且二项分布趋近泊松分布,于是:

$$ \mathbb{P}(k,\tau ) = \dfrac{(\lambda \tau) ^k }{k!}e^{-\lambda \tau } \quad k \in \mathbb{Z} ^+ $$

注意这里的 $\lambda $ 和泊松分布的 $\lambda $ 不是一个。这里的 $\lambda \tau = np$ 整体才相当于泊松分布的 $\lambda $。也即,泊松过程服从参数为 $\lambda \tau $ 的泊松分布。

指数分布

问:如果用户到达服从泊松过程,则首次到达的时间服从怎样的分布?

设随机变量 $T$ 表示首次到达经历的时间。 $\mathbb{P}(T < t)$ ,表示首次到达时间小于 $t$ 的概率。这正是我们想求的。设分布函数 $F_T(t) = \mathbb{P}(T < t) = 1 - \mathbb{P}(T > t) = 1 - \mathbb{P}(0,t) = 1 - e ^ {- \lambda t }$

$\mathbb{P}(0,t)$ 表示 $t$ 时间段内没有到达的概率。 $\mathbb{P}(T > t)$ 表示在 $t$ 时间后才由到达的概率。 二者含义一样,因此 $\mathbb{P}(T > t) = \mathbb{P}(0,t)$

这就是指数分布的分布函数。

$$ F_T(t) = 1 - e ^ {- \lambda t } \quad t \geqslant 0 $$

对其求导得到 PDF:

$$ f_T(t) = \lambda e ^{- \lambda t} \quad t \geqslant 0 $$

M/M/1 排队模型

参考

(1)All of Statistics A Concise Course in Statistical Inference (2)Introduction to Probability