概率论和统计学中重要的分布函数

随机变量在概率空间中遵循不同类型的分布,这决定了它们的特征并有助于预测 。
本文内容列表:
· 引言
· 高斯/正态分布(Gaussian/Normal Distribution)
· 二项分布(Binomial Distribution)
· 伯努利分布(Bernoulli Distribution)
· 对数正态分布(Log Normal Distribution)
· 幂律分布(Power Law Distribution)
· 分布函数的使用
引言每当我们遇到任何概率实验,我们谈论的是随机变量,它只不过是获取实验预期结果的变量 。例如,当我们掷骰子时,我们期望从集合{1,2,3,4,5,6}中得到一个值 。所以我们定义了一个随机变量X,它在每次掷骰时取这些值 。
根据实验的不同,随机变量可以取离散值,也可以取连续值 。骰子的例子是离散随机变量,因为它取一个离散值 。但是假设我们讨论的是某个城镇的房价,那么相关的随机变量可以取连续的值(例如550000美元,1200523.54美元等等) 。
当我们将随机变量的期望值与实验中出现频率的关系图绘制出来时,我们得到了一个直方图形式的频率分布图 。利用核密度估计对这些直方图进行平滑处理,得到了一条很好的曲线 。这条曲线被称为"分布函数" 。

概率论和统计学中重要的分布函数

文章插图
 
橙色平滑曲线是概率分布曲线
高斯/正态分布高斯/正态分布是一个连续的概率分布函数,随机变量在均值(μ)和方差(σ²)周围对称分布 。
概率论和统计学中重要的分布函数

文章插图
 
高斯分布函数
平均值(μ):决定峰值在X轴上的位置 。而且,所有数据都对称地位于X=μ线的两侧 。如图所示,蓝色、红色和黄色曲线分布在X=0的两侧,而绿色曲线的中心位于X=-2 。所以通过观察这些曲线,我们可以很容易地说,蓝色,红色和黄色的平均值是0,而绿色的平均值是-2 。
方差(σ²):决定曲线的宽度和高度 。方差只不过是标准差的平方 。请注意,图中给出了所有四条曲线的σ²值 。现在不看数值,我们可以很直观地发现,黄色曲线的高度最低 。
概率论和统计学中重要的分布函数

文章插图
 
如果我们设置μ=0和σ=1,则称为标准正态分布或标准正态变量,一般表达式变为:
概率论和统计学中重要的分布函数

文章插图
 
标准正态分布函数
现在我们可以思考,分母意味着什么?这是为了确保正态分布曲线下的面积总是等于1 。
我们从正态分布中可以得到很多有用的数据分割信息 。以下图为例:
概率论和统计学中重要的分布函数

文章插图
 
正态分布的值分割图
如图所示,如果我们从平均值右移一个标准差,这个分布存储了总质量的34.1%;如果我们从平均值右移2个标准偏差,则为49.8% 。因为这条曲线是对称的,所以两边都适用 。
所以,现在我们知道了,如果任何数据服从正态分布,例如城镇人口的权重,我们可以很容易地估计出很多值,而不需要进行实际的广泛分析 。这就是正态分布的力量 。
二项分布(Binomial Distribution)正如我们在名字里看到的,有一个"Bi" 。这个'Bi'代表一个实验的2个结果,要么是肯定的,要么是失败的,要么是1或者0等等 。最简单的说,这个分布是多次重复实验的分布以及它们的概率,其中预期结果要么是"成功"要么是"失败" 。
概率论和统计学中重要的分布函数

文章插图
 
二项分布
从图像上可以看出,它是一个离散的概率分布函数 。主要参数为n(试验次数)和p(成功概率) 。
现在假设我们有一个事件成功的概率p,那么失败的概率是(1-p),假设你重复实验n次(试验次数=n) 。那么在n个独立的伯努利试验中获得k个成功的概率是:
概率论和统计学中重要的分布函数

文章插图
 
二项分布函数
其中k属于范围[0,n],并且:
概率论和统计学中重要的分布函数

文章插图
【概率论和统计学中重要的分布函数】 
现在我们思考一个简单的问题 。假设印度和澳大利亚之间正在进行板球比赛 。Rohit Sharma已经得到了151分,根据你的经验,你知道150分之后,Rohit有0.3分的概率达到6分 。这是最后一节了,你父亲问你Rohit有多大的机会能打4个全垒打 。那你怎么判断呢?


推荐阅读