从泊松分布、泊松过程到指数分布
泊松分布
问题:假设平均每天有 $\lambda $ 人出生(假设每人最多出生一次)。今天出生人数为 $k$ 的概率多大?
我们注意到 $\lambda $ 实际上是一个数学期望值。有必要深究一下。
假如我们把一天划分为 $n$ 个时间片序列,编号 $1,2,\cdots, n$ 。每个时间片有人出生概率都是 $p$。
设随机变量 $X$ 为 $n$ 个时间片中出生的人数。则如果一天有 $k$ 人出生,相当 $n$ 个时间片中 $k$ 个有人出生,剩下 $n - k$ 个无人出生。也即,$ \mathbb{P}(X = k) = {n \choose k} p^k (1 - p) ^ {n - k}$
则 $\mathbb{E}(X)$ 表示 $n$ 个时间片出生的平均人数,即 $\lambda $ :
$$ \begin{align} \mathbb{E}(X) &= \sum_{k = 0}^{+ \infty } x \mathbb{P}(X = x) \\ &= \sum_{k = 0}^{+ \infty } x{n \choose x}p^x(1 - p)^{n - x} \\ &= np \quad \text{(二项分布的期望)}\\ &= \lambda \end{align} $$这里 的 $\lambda = np$ 条件,将在证明时用到
目标(今天出生人数为 $k$ 的概率) 为 $n \to \infty $ 时的 $\mathbb{P}(X = k)$ ,此时得到的分布成为泊松分布,即:
$$ \begin{align} \lim_{n \to \infty} {n \choose k} p^k (1 - p) ^ {n - k} \end{align} $$我们将得到泊松分布列:
$$ \mathbb{P}_X(k) = \mathrm{e}^{-\lambda} \dfrac{\lambda^{k}}{k !} $$证明如下:
期望和方差
重申,随机变量 $X$ 代表 $n$ 个时间片事件发生 $x$ 次,由于时间片细分取极限得到单位时间,所以 $X$ 表示单位时间内时间发生的次数。
期望和方差分别是:
$$ \mathbb{E}(X) = \dfrac{\lambda }{e^{-\lambda }} \quad \mathbb{V}(X) = \lambda $$泊松过程和 M/M/1 排队模型
上面的泊松分布只考虑了某天事件发生 $k$ 次的概率。那么如果要任意段时间 $\tau$ 事件发生的 $k$ 次的概率呢?下面开始推导。
得先明确目标。不妨设计场景吧,假设我们是银行柜台,要给到来的人办理业务。
其实这里的时间片划分和泊松分布的推导非常相似,只不过泊松分布划分的是单位时间 $1$ ,而此处划分的是任意时间段 $\tau $
定义 $\mathbb{P}(k, \tau )$ 为时间段 $\tau $ 内有 $k$ 个到达的概率。我们的目标是求出 $\mathbb{P}(k, \tau )$
我们将时间轴 $[0, \tau]$ 划分为许多个长度为 $\delta $ 的子区间。则划分的段数为 $n = \dfrac{\tau }{\delta }$
由于 $\delta $ 非常小,几乎可以认为,对于每个 $\delta $ ,其间到达的概率都相等。即,我们可以认为在每个 $\delta $ 区间进行抛硬币抽奖,抽中了,则会到达。
设此概率其为 $p = \lambda \delta $,则系数 $\lambda $ 可以反应到达的快慢,称之为 到达率,或者 强度。
Q: 凭什么设为 $p = \lambda \delta $? A: 我们如果从 $n $ 个 $\delta$ 区间(总长度为 $\tau = n \delta $ )按照比例 $\lambda$ 抽取一些作为到达(如下图,淡红色代表到达),因此到达率 $\lambda$ 起始相当于抽取的占整体的比例,因此对于任意区间,被抽到的概率是 $\lambda \delta $ ,设其为 $p$ 。
这个过程是一个二项分布。满足 $X \sim \operatorname{Binomial}(n, p)$
二项分布 $\mathbb{P}(X)$ 表示投掷硬币 $n$ 次,正面为 $X = x$ 次数
在本例中,表示在 $n $ 个 $\delta$ 抽中“到达”的个数,即 $k$ 。
$\mathbb{P}(k,\tau ) = {n \choose k} p ^ k (1 - p) ^ {n - k}$
随着 $\delta \to 0$,分段数 $n \to \infty $ ,而:
$$ np = n \lambda \delta =\lambda \tau $$是一个定值。并且二项分布趋近泊松分布,于是:
$$ \mathbb{P}(k,\tau ) = \dfrac{(\lambda \tau) ^k }{k!}e^{-\lambda \tau } \quad k \in \mathbb{Z} ^+ $$注意这里的 $\lambda $ 和泊松分布的 $\lambda $ 不是一个。这里的 $\lambda \tau = np$ 整体才相当于泊松分布的 $\lambda $。也即,泊松过程服从参数为 $\lambda \tau $ 的泊松分布。
指数分布
问:如果用户到达服从泊松过程,则首次到达的时间服从怎样的分布?
设随机变量 $T$ 表示首次到达经历的时间。 $\mathbb{P}(T < t)$ ,表示首次到达时间小于 $t$ 的概率。这正是我们想求的。设分布函数 $F_T(t) = \mathbb{P}(T < t) = 1 - \mathbb{P}(T > t) = 1 - \mathbb{P}(0,t) = 1 - e ^ {- \lambda t }$
$\mathbb{P}(0,t)$ 表示 $t$ 时间段内没有到达的概率。 $\mathbb{P}(T > t)$ 表示在 $t$ 时间后才由到达的概率。 二者含义一样,因此 $\mathbb{P}(T > t) = \mathbb{P}(0,t)$
这就是指数分布的分布函数。
$$ F_T(t) = 1 - e ^ {- \lambda t } \quad t \geqslant 0 $$对其求导得到 PDF:
$$ f_T(t) = \lambda e ^{- \lambda t} \quad t \geqslant 0 $$M/M/1 排队模型
参考
(1)All of Statistics A Concise Course in Statistical Inference (2)Introduction to Probability