Abstract: 本文介绍Beta分布的相关知识内容 Keywords: The Beta Distribution
Beta分布
我们预测未来某件事情是否发生的主要依据是先验知识,于是我相信,自古流传至今的那些道理应该是值得信任的,人无信不立,立壁千仞无欲则刚,生于忧患死于安乐,这些所谓的被我曾经鄙视的大道理,现在看看,真的是值得我自己坚持的,我大中华文化几千年,流传出来的一定是被很多人验证过的先验知识,而现在这些有钱的爸爸总结出来的可能只适用于这个时代,想要追求真理,安全起见还是要多读古人的智慧。 本文继续在连续随机变量上进行探索,Gamma分布的随机变量是满足某些条件下的所有正实数,而我们今天要研究的beta族分布是分布在 \([0,1]\) 区间上的一种类型的连续分布。一个最常见的例子,是Bernoulli过程中对每次试验的成功概率的建模。 Bernoulli过程就是多次的独立的试验形成的一个结果序列,这个系列中每个随机变量的成功概率就可以用Beta分布来建模。 ## 贝塔函数 The Beta Function 和Gamma分布一样,Beta分布也是先有的Beta函数,先来看个例子,这个例子可以引出我们的Beta函数。 🌰 : 一个机器制造零件,只有两种情况就是合格和不合格,不会出现第三种情况,我们让 \(P\) 表示不合格的零件占总零件的比例,假设我们得到了n个零件,其中X个不合格,我们假设在给定条件P下每个零件的合格与否条件独立,那么我们就能得出在3.6中的例子,对应这个例子,当给定 \(X=x\) 的条件下 \(P\) 的分布: \[ g_2(p|x)=\frac{p^x(1-p)^{n-x}}{\int^{1}_{0}q^x(1-q)^{n-x}dx} \text{ for }0<p<1 \]
这个p.d.f.就是我们今天要研究的主角,在研究完整分布之前,我们先来研究这个分母
Definition The Beta Function .For each positive \(\alpha\) and \(\beta\) ,define: \[ B(\alpha,\beta)=\int^{1}_{0}x^{\alpha-1}(1-x)^{\beta-1}dx \] the function B is called the beta function
所以上述就是beta函数的定义,也是上面例子中的分母的形式,可以看出beta函数中的 \(\alpha,\beta > 0\) 本文后面用到了3.9的一部分知识未在博客中体现,预计作为补充内容在下一部分给出,所以这个地方有些可以跳过。或者通过书本学习相关内容。
Theorem For all \(\alpha,\beta >0\) , \[ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} \]
这个命题的证明就用到了上面说的3.9的一部分选学内容,我们后面会给出相关证明,但是目前我们就当做此定理已经证明。
贝塔分布的定义 Definition of the Beta Distributions
那么我们接下来就要定义Beta分布了。 >Definition Beta Distributions.Let \(\alpha ,\beta >0\) and let X be a random variable with p.d.f. \[ f(x|\alpha,\beta)= \begin{cases} \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}x^{\alpha-1}(1-x)^{\beta-1}&\text{ for }0<x<1\\ 0&\text{otherwise} \end{cases}\tag{5.8.3} \]
观察可以发现,如果 \(\alpha=1,\beta=1\) 那么5.8.3就是 \([0,1]\) 的均匀分布。
举个🌰 : 这个例子在西方社会可能比较常见,在我们这不流行这么落后的方法,资本主义国家迷路都是看指南针,看地图,我们是直接扔鞋,高效有特色!一天天选个举还要用模型预测,我口算都能算出来我们的选举结果。 从一个有79.1%墨西哥裔美国人的地区中选择220个陪审员,但是只有一百个陪审员是墨西哥裔,根据二项随机变量X的期望值是 \(E(X)=220\times 0.791=174.02\) 。显然这比100多了不少。当然出现174个墨西哥裔的陪审员并不是必须的,也是概率的,因为 X可以为 [0,220] 中的任意数字。我们令 P 为墨西哥裔陪审员的比例。法庭假设X 在条件 \(P=p\) 上一个二项分布,参数 n=220 和 p ,我们比较感兴趣是否P小于0.791,我们现在假设存在种族歧视(墨西哥裔陪审员比例小于0.791)比如我们认为选择系统存在一个0.8的偏移,也就是 \(P<0.8\times0.791=0.6328\) 那么我们要计算的就是当给定 \(X=100\) 时 \(P\leq 0.6328\) 的条件概率
解: 假设P的分布在得到X前已经被确定(比如选举系统被人做了手脚),那么我们把它假设成一个beta分布,参数为 \(\alpha,\beta\) ,那么 \(P\) 的p.d.f.是: \[ f_2(p)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}x^{\alpha-1}(1-x)^{\beta-1} \text{ , for }0<x<1 \] X在给定P=p条件下的概率函数: \[ g_1(x|p)=\begin{pmatrix}200\\x\end{pmatrix}p^x(1-p)^{220-x}\text{, for }x=0,\dots,220 \]
然后我们用伟大的贝叶斯公式来X=100 条件下的P的概率: \[ \begin{aligned} g_2(p|100)&=\frac{\begin{pmatrix}220\\100\end{pmatrix}p^{100}(1-p)^{120} \cdot \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}x^{\alpha-1}(1-x)^{\beta-1}}{f_1(100)}\\ &=\frac{\begin{pmatrix}220\\100\end{pmatrix}\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)f_1(100)}p^{\alpha+100-1}(1-p)^{\beta+120-1} \end{aligned} \]
上面结果可以看出来左半部分就是个数,右半部分才含有变量,并且这个形状,很明显,还是一个beta分布,然后我们选择参数值就可以知道这个 \(Pr(P\leq 0.6328|X=100)\) 的分布了,而这个参数选择要在我们徐汇了beta分布的期望求法以后才能知道怎么选择参数。
Theorem Suppose that \(P\) has the beta distribution with parameters \(\alpha\) and \(\beta\) ,and the conditional distribution of \(X\) given \(P=p\) is the binomial distribution with parameters \(n\) and \(p\) .Then the conditional distribution of \(P\) given \(X=x\) is the beta distribution with parameters \(\alpha+x\) and \(\beta+n-x\)
这个定理上面我们的例子中已经用事实证明了可行,但是并没有严谨的证明,所以这个定理是未严格证明的定理。 ## 贝塔分布的距 Moments of Beta Distributions >Theorem Moments.Suppose that X has the beta distribution with parameters \(\alpha\) and \(\beta\) .Then for each positive integer k, \[ E(X^k)=\frac{\alpha(\alpha+1)\dots(\alpha+k-1)}{(\alpha+\beta)(\alpha+\beta+1)\dots(\alpha+\beta+k-1)} \] In particular, \[ E(X)=\frac{\alpha}{\alpha+\beta},\\ Var(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \]
证明: For \(k=1,2,\dots\) \[ \begin{aligned} E(X^k)&=\int^{1}_{0}x^kf(x|\alpha,\beta)dx\\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\int^{1}_{0}x^{\alpha+k-1}(1-x)^{\beta-1}dx \end{aligned} \] 根据公式 5.8.2 \[ E(X^k)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\cdot\frac{\Gamma(\alpha+k)\Gamma(\beta)}{\Gamma(\alpha+k+\beta)} \] 简化之后就是定理中形状了,证毕。
beta分布有很多不同参数组合形式,计算器均值和c.d.f.是非常有用技能。
在选择参数之前,我们必须明确Beta分布一般来建模概率的分布,0到1之间的分布,如果其中某个概率出现的比较大,那么分布在图像上会给出一个峰值,并且Beta分布的图像大致如下:
均值就是峰值的位置。 接着我们把参数改一下,看看有什么变化 
可见,在均值不变的情况,增大 \(\alpha\) 和 \(\beta\) 的值,分布变高变瘦了。
还要继续上面的例子,简单的概括一下上面的例子,首先,我们感兴趣的是一个概率的概率,而研究概率的办法是研究分布,也就是概率的分布,我们用beta 分布来建模这个概率,然后我们做试验来验证我们之前猜测概率也好,希望的概率也好,验证他们是否合理,根据上面选陪审员的例子,我们的目的就是为了验证有没有种族歧视,因为墨西哥裔占总人口数为 \(79.1%\) ,而只选择出了100人,理论上应该选择出174.02 人,我们想知道当我们选择出100人的条件下,是否还是公平的,用概率为\(79.1%\) 的参数去抽取了,还是用 \(79.1%\times 0.8\) 或者更夸张的参数选取的。根据上面例子中我们已经求出了条件概率,接下来我们研究选择什么样的 \(\alpha\) 和 \(\beta\) 来准确的计算这个概率。 首先我们先来看原始分布(不是 \(g_2(p|100)\) 条件分布)原始分布我们希望的是对所有人平等的,所以根据期望来计算,这个分布的期望必然是 0.791 ,这样才是公平的,根据beta分布的数字特征,我们能计算出: \[
E(X)=\frac{\alpha}{\alpha+\beta}=0.791\Rightarrow \alpha=3.785\beta
\] 这个关系是我们最基本的性质,所以在条件情况 \(g_2(p|100)\) 下的参数也应该满足这个关系,\(g_2\) 参数为 \(\alpha+100\) 和 \(\beta+120\) 那么我们就能得出一个系列的不同参数的 \(g_2\) 但是这不好研究,因为 \(p\) 是自变量,还有 \(\beta\) (或者 \(\alpha\) ) 两个变量,所以我们来看当 \(p< 0.791\times 0.8 = 0.6328\) 的时候各 \(\beta\) 对这个条件分布的相互关系:
因为当 \(p<0.6328\) 就相当于非常歧视了,所以我们必须让这个概率低,怎么也要低于0.5 那么对应的 \(\beta\) 就要选至少 51.5 ,此时 \(\alpha\) 为 194.9 这个时候如果我们把 \(\beta=51.5,\alpha=194.9\) 作为参数带回到原始我们假设的 \(p\) 的分布,得到 \(P(X=100)=3.28\times 10^{-8}\) 这也就意味着,我们原始的关于均值是0.791的beta分布,发生220个陪审员中有100个墨西哥裔的概率是 \(3.28\times 10^{-8}\) 基本为0,所以这里面肯定有不公平! 
总结
这篇文章写了三天,原因是昨天胃肠炎发烧了,所以如果有点不连贯,请大家谅解,重点是例子,注意,重点是例子。