概率论总结推荐(通用)-范文网

概率论总结推荐

概率论总结关于第一篇

多维随机变量的函数分布：

(一)和的分布：

设是一个二维离散型随机变量，密度函数为,现在来求的分布，按照定义为

用密度函数代替密度函数

可得：

则对.

同理有对称性可以求出：.

以上所得和分布的边际密度通常称之为概率密度的卷积公式，显然和的分布函数主要是要确定好分布函数的积分区域然后将二重积分化为累次积分即可.

以下给出一些具有可加性的常用结论：

假设随机变量相互独立

二项分布：

若,且二者独立，则.

泊松分布：

若且二者相互独立，则

正态分布：

伽马分布：

卡方分布：

m个两点分布的随机变量的和服从试验次数为m的二项分布

服从几何分布的m个随机变量的和负二项分布Nb(m,p)

服从的m个指数分布的和服从伽马分布

(二) 商的分布与和的分布：

这个主要是利用二重积分的变量替换利，用雅可比行列式进行变量替换之后在利用求边际密度方法求得替换之后的变量的密度函数，然后在积分即得到分布函数.

这里不做过多叙述…….

多维随机变量的特征数：

这里只讨论二维的情形，高于二维的情形在二维的情形上推广之即可.

多维随机变量的数学期望：

设若二维随机变量的分布用联合分布列或者用联合密度函数表示，则的数学期望如下：

二维离散型随机变量的数学期望：

对于离散型随机变量而言其分布列只要把与分别对应合并起来即可

其数学期望表达式为：

二维连续型随机变量的数学期望:

多维随机变量的方差：

这个根据数学期望依据方差的计算公式即可，不做过多描述.

数学期望与方差的性质：

注意这里只列出二维的情形，多维的情形推广之.

设是二维随机变量，则有：.

若随机变量和相互独立，则有：

协方差：

设是一个二维随机变量，若存在，则称此数学期望为的协方差，或称为X与Y的相关矩，并将其记为：

特别有.

从协方差的定义可以看出他是偏差的数学期望，由于偏差可正可负故其协方差也可正可负，取值的正负有其意义，要想理解协方差到底是个什么意思且看下图：

假设二维随机变量的取值区域如上图所示，若为二维离散型随机变量的取值也如上图所示只不过不能取到椭圆域内的所有点只去离散个点.假设上图平行于X轴与平行于y轴的两条相交直线的交点坐标为且将二维随机变量取值的区域分割为四个象限则由协方差的定义：

当随机变量的取值落在区域的时候将导致 ,当随机变量的取值落在区域的时候将导致 ,由此可知当落在区域的随机变量取值多于区域取值或者在区域的取值,偏离的程度很大的时候，一般情况下也即的面积大于的面积和的时候，将导致，这个时候随机变量的取值图形将如上图所示，这时候我们可以看出图形呈现出的情形是X的取值将与Y的取值大致呈现出同时增加的倾向，这时候我们就称两随机变量大致呈现出正相关的关系.

如果反之随机变量的取值区域呈现出如下情形：

此时将与上面的分析相反其相关系数,X的取值与Y的取值大致呈现出同时减小的倾向，则称此时的两随机变量为负相关.

而当随机变量的取值区域呈现出下面的情况时候：

不相关.png

这个时候与的值正负相抵导致此时则称两随机变量完全不相关.

上面为了帮助理解相关系数，我们从几何的角度去理解，因为很多的数学问题如果从逻辑上面不好把握的话我们可以从几何上找到突破口，我国著名数学家华罗庚曾经说过：‘’数无形时少直觉，形无数时难入微“，这句话说得相当的精辟，短短一四个字就把数与形的关系说得清清楚楚说得你醍醐灌顶、豁然开朗,你不服都不行.确实从几何上面来理解数学更加的直观形象，但是上面我们仅仅是从图形出发来建立什么是多维随机变量的相关性的感性认知，两个随机变量什么时候正相关负相关如果仅仅只是从图形上面感性理解这也是片面的朦胧的不精确的，比如从上面的图形中我们能够感性的认识到如果随机变量取值总区域越偏平即椭圆形状越是扁其线性相关程度就越高，越是呈圆形那么其相关程度就越是低，如果取极限位置即两个随机变量呈现出一条直线那么他们不就是完全相关了吗？但是我们如何去衡量椭圆的扁平程度嘞？用一个什么样的表达式去衡量嘞？这是一个问题，所以我们如果想理性的认识什么是多维随机变量的相关性与不相关，还是得从更加微观的角度即数的角度去认知他，下面我们就从代数出发来认知协方差与标准化后的协方差即相关系数的具体意义

相关系数：

就如同方差有量纲一样，协方差也是一个有量纲的量，为了比较相关程度的高低我们必须设法去掉协方差的量纲，之前说过方差是描述数据之间的差异与数据的波动程度的一个量，我们为了将不同随机变量的方差进行比较将他们进行了标准化即放在同一个标准下进行比较因此我们将方差比上数学期望去掉了量纲，同方差一样我们也要对协方差进行标准化处理去掉量纲使得不同随机二维变量之间的相关程度具有可比性.

因此就将标准化后的相关系数称之为协方差：

设若是一个二维离散型随机变量，且, .则称

为随机变量的相关系数.由此可见所谓相关系数就是将协方差比上随机变量各自的标准差，相关系数的正负由分子决定，相关系数大于零则说明正相关，小于零则说明负相关，等于零则说明不相关.如果相关系数的作用和协方差是一样的那么说句话糙理不糙的话就是脱裤子放屁多此一举说了数学家是不会做这么无聊的

那么度量相关性到底是如何实现的嘞？先来看一个数学上非常著名且无论是在几何学还是在分析学亦或是在代数学上都有应用的不等式，帅气且霸气的柯西—施瓦茨(Schwarz)不等式 ：

对任意二维随机变量,若X与Y的方差都存在，且记为,则有

这个定理的证明是很简单，这不是重点，重点是大家有没有觉得这个不等式很熟悉？r如果我们将协方差看做是一个内积的话像不像高等代数中的内积公式？,这简直就像极了爱情，这是不是巧合？我们是不是可以将概率论中的实值函数随机变量做成一个向量空间，然后在定义一个内积为协方差，这样就做成了一个概率空间上面的欧式空间？有这个想法可以但是有待验证，下面就来验证随机变量是否能做成一个高等代数中的向量空间然后在验证是否定义了协方差这个内积之后可以做成一个欧式空间.

验证是否概率论中的随机变量做成的集合能否做成实数域上的一个向量空间

以上即可证明随机变量可以做成一个向量空间

下面接着证明协方差是否能够定义为向量空间上的内积将随机变量做成的向量空间在作成一个欧式空间.

对称性：

线性性质：

由协方差的定义可得

正则性：

故综上所述所有的随机变量可以做成一个欧式空间其内积为协方差.

由向量的内积公式可得其中为向量X与Y的夹角.故.然后可以证明的充要条件是X与Y有相关关系.当的时候不相关，上面感性的认识过越大即相关系数的分子绝对值越大也即相关系数绝对值越大则两随机变量的相关程度就越高，故相关系数越是接近于一则两随机变量的相关程度也就越高，反之越是接近与零则其相关程度也就越低.

其实相关系数还可以做另外一种理解：

若即随机变量的数学期望为则其标准化的变量为

则即两随机变量的相关系数等于标准化后的随机变量的方差.

通过将高等代数中的欧式空间引入到概率论中能够有助于我们理解相关系数，因此我们要具有知识的迁移能力这很重要，不能为了知识而知识，知识就是拿来运用的.

协方差矩阵：

记n维随机向量为，若其每个分量的数学期望都存在，则：

为n维随机变量向量的数学期望向量简称为X的数学期望而称

为随机向量的协方差矩阵，此矩阵是一个对称非负定矩阵，主对角线上的元素为对应位置的方差，其他位置为对应随机变量的协方差，只要将协方差矩阵的算法输入到计算机内部我们就可以很清晰的看清楚n维随机向量任意两个随机变量间的相关关系.

条件分布与数学期望

离散型随机变量的条件分布

条件分布无疑就是在知道联合分布的情况下运用条件概率公式求之即可不做过多叙述.

连续型随机变量的条件分布

设二维离散型随机变量的联合概率密度，边际密度函数为.

在离散随机变量场合，其条件概率的分布函数为.因为连续型随机变量取某个值的时候其概率为零，故在连续型场合不可以简单的使用条件概率公式，这会导致分母为零，因此既然不能求出某一点取值的概率，我们又在数学分析中学过极限的概念，因此我们可以将看做时的值去代替,于是就可以得出如下的定理:

对一切使得的y，给定条件下X的条件分布函数和条件密度函数分别为

连续场合的全概率公式和贝叶斯公式

由条件密度函数可得

可得到边际密度函数

就得贝叶斯公式的密度函数形式为：

由对称性即可得到.

条件数学期望

条件分布的数学期望如果存在则称其为条件期望.条件期望的计算只要利用连续型场合和离散型场合的定义用条件概率代替非条件概率计算即可.

设服从二维正态分布由边际分布知X服从正态分布,Y服从正态分布 .我们可以求得其条件分布也服从正态分布

要了解条件数学期望的意义且看如下例子：

_在勘察犯罪现场获取犯罪分子信息的时候经常根据脚印的大小来判断其身高，一般认为脚印和足长可以可以视作二维正态分布在处理，即其条件分布服从正态分布由此可以得到： ,里面除了脚印大小y为未知数以外其他的参数都可以看做是已知的，因此只要知道了犯罪嫌疑人的脚印大小就可以推断其身高.

上面已经知道了我们可以用条件期望来进行推断实际上这种推断只是一种估计，那么这种推断是否是可靠的嘞？可靠的依据又在哪里嘞？

条件均值说白了就是在已知的条件下去预测的值,那么用条件均值预测有些什么好处嘞？下面进行说明.

我们已经知道条件均值是未知数y的一个函数，我们不妨假定还有其他的y的函数可以对x进行预测，判断这个预测值好坏的依据是误差要尽可能的小即 ,但是是一个随机变量取值并不固定，因此就要求其均值

为了去掉绝对值方便运算将其替换成.

我们可以证明当的时候成立，因此用条件均值进行预测的时候其均方误差将达到最小，这就是用条件均值进行合理预测的理论依据.我们也将称之为是第一类回归.

但是当某些分布的密度函数未知或者是函数过分复杂的时候我们也可以降低要求，即不寻求最优预测，只需求满意预测即可，当不使用条件均值时我们通常使用一个简单的函数即线性函数来替代他进行预测，不妨设为的线性预测，则我们要求

为了求出参数a和b，可以进行如下处理将上式分别对a和b求偏导数然后求出稳定点a,b即可得到参数a,b的计算公式(很显然必然有一个a,b的取值满足上式).

由此得到我们将其称之为第二类回归，由此可知对正态分布而言其第一类回归就是第二类回归，即在理论上来讲用条件均值来预测犯罪嫌疑人的身高是合理最优的预测方案.

特征函数

随机变量的分布函数可以全面的描述随机变量的统计规律，但是分布函数和密度函数使用起来并不方便，比如知两随机变量他们两个相互独立其密度函数分别为则的密度函数即为的卷积，但是当我们要研究即n个随机变量和的分布的时候我们就要求次卷积，我的妈耶，这个计算量是相当的大的，即便是如今的计算机也是吃不消的，因此我们必须需求其他的工具来解决这个问题，在数学分析中我们知道傅里叶(Fourier)变换能够将卷积运算转化为乘法运算即，因此我们密度函数进行傅里叶变换将卷积运算转化为乘法运算然后在通过傅里叶逆变换即可以求得密度函数，乘法运算显然是要比卷积运算方便的.

设是随机变量的密度函数，则的傅里叶变换是 ,i是虚数也即.

设是任一随机变量，则称

是的特征函数.

显然任何一个随机变量其特征函数都是存在的因为 .

定理一：

设的特征函数分别为则的特征函数为

，n维情形推广之.

定理二：

设随机变量有N阶矩存在，则的特征函数可微N次且对有：

,这个公式可以方便计算随机变量的K阶矩只要对其特征函数求K阶导数即可

从上面我们知道任何一个随机变量分布函数唯一的对应着一个特征函数，实际上也可以证明任何一个特征函数也唯一地确定了他的分布函数，即特征函数与分布函数是一个双射.由此我们就可以利用傅里叶逆变换根据随机变量的特征函数来确定其密度函数与分布函数.

傅里叶变换：.

傅里叶逆变换：

由特征函数我们可以看到，数学各个分支看起来似乎相互独立，其实是各分支相互渗透的，概率论的产生离不开数学分析,高等代数和复变函数的发展，而概率论的发展也反过来推动了其他数学分支的发展，知识与知识之间要有迁移能力，要有整体上的把握，这样才能对数学有全面的了解.

大数定律与中心极限定律

前面说过对于随机试验，随着随机试验的次数逐渐增多，频率将会逐渐稳定到概率，平均值将会逐渐稳定到均值，这个稳定只是一个很直觉的说法，那么如和让这种直觉转化成数学意义嘞？这就是下面要解决的问题.

伯努利大数定律：

设是n重伯努利试验中A试验发生的次数，又A在每次试验中出现的概率为 .则对任意的 ,有

上式中的就是n次随机试验的频率，也就是说随着n次数的增加其频率趋向于概率的概率趋向于一，这个是与数学分析中的极限概念是不同，极限是存在存在，当,的时候任意的都满足

而伯努利大数定律是强调的是概率 ,当n趋于无穷的时候其概率趋向于一，也就是说，事件发生的可能性会越来越大，但也有可能的事件会发生，因此我们就将频率依照概率收敛于概率.

对于伯努利大数定律实际上我们是讨论了形如的随机变量，当时的统计规律，其中是独立的服从分布的随机变量，因此我们将伯努利大数定律推广到更为一般的情形

大数定律：

若诸是随机变量序列，如果存在常数序列使得对任意的有：

成立，则称随机变量序列服从大数定律，由此可知，伯努利大数定律只是上叙大数定律的一个特例.

切比雪夫大数定律：

设是一些两两互不相关的随机变量，又设他们的方差有界，即存在常数使得诸则对任意的有：

此定理可有切比雪夫不等式得证明

由此可见伯努利大数定律是切比雪夫大数定律的特例，切比雪夫大数定律是大数定律的特例

马尔可夫大数定律：

在证明切比雪夫大数定律的过程中其实我们可以发现只要则{}服从大数定律，即对任意的有：

切比雪夫大数定律是马尔可夫大数定律的特例，马尔可夫大数定律的重要性在与对于随机变量序列已经没有了独立性、同分布性、不相关性的假定，在以上大数定律的证明过程中都是以切比雪夫不等式为前提的因此都要要求随机变量具有方差，但是进一步的研究表明，方差的存在也不是必要的，下面关于一个与方差无关的大数定律，辛钦大数定律

辛钦大数定律：

设诸是一系列独立同分布的随机变量且数学期望存在：

则对任意的,有成立

在上面的所有大数定律中伯努利大数定律是证明了频率依照概率稳定与概率，而辛钦大数定律是证明了平均值依照概率会稳定与数学期望，现有伯努利大数定律而后将其推广给出大数定律的一般形式，而后将伯努利大数定律的条件一步步放宽，伯努利大数定律数切比雪夫大数定律的特例子，切比雪夫大数定律是马尔可夫大数定律的特例，无论是切比雪夫大数定理还是伯努利大数定律亦或是马尔可夫大数定律他们三者的证明都是与切比雪夫不等式有关，因此要求其随机变量序列具有方差，但是辛钦大数定律是与方差无关的，他至于随机变量序列是否独立以及各自的数学期望是否存在有关.

随机变量序列的两种收敛性：

在大数定律中我们从频率的稳定性出发，引入了

即随机变量序列{}依概率收敛于常数a的概念，很自然的我们也把他进行推广，即不把它收敛于一个常数而是收敛于一个随机变量，于是引入如下定义：

设有一列随机变量如果对任意的,有

则称随机变量序列{}依概率收敛于记作

大数定律只是上叙依概率收敛的一种情况特殊情况

如果我们已知那么他们的分布函数之间会有什么样的关系嘞？

定义：设, 是一系列分布函数，如果对的每个连续点都有

则称分布函数列{}弱收敛于

定理一：

若随机变量序列依概率收敛于随机变量，则随机变量序列的分布函数列弱收敛于的分布函数

一般来说此定理反过来不成立

定理二：

随机变量序列其中c为常数的充要条件为

为退化分布是的分布函数

此定理说明随机变量和的分布弱收敛于退化分布这就是大数定律

定理三：

分布函数列{}弱收敛于分布函数的充要条件书相应的特征函数列{} 收敛于的特征函数 .

前面我们了解到特征函数有便于减少求独立随机变量和的分布的计算量，而且可以很方便的求出和的分布的一些特征数，有了这个定理之后我们将极大的拓宽特征函数的使用范围，当求独立分布和的极限问题的时候这个工具将发挥出巨大的威能

中心极限定理：

之前曾经提到过高斯在研究误差理论的时候曾经利用了正态分布，那么大家有没有想过为什么会选着正态分布来研究误差嘞？那么现在我们来研究一下误差到底是一个什么样的随机变量，以我国的东风导弹为例，设靶心为原点，则导弹的弹着点为 ,现在我们已经知道都服从正态分布，可以看做是导弹射击的横向误差要和纵向误差，而造成产生误差的原因是有无数个微小的因数积累总和而成的，比如空气的阻力，空气的湿度，炮弹的火药差异，发射站的具体情况等等一系列原因造成的，我们不妨假设这一系列的因素造成的横向误差和为误差为，即，我们暂且先把这一系列误差随机变量看做是独立同分布的，现在我们来研究随机变量和的分布，数学家们发现，当的时候可能趋向于无穷这时候其方差越来越大，均值也越来越大，造成分布极其的不稳定，而且求其分布函数越来越困难，此时我们研究这种情形就没有什么现实意义，我们只讨论取有限值时候的随机变量，伯努利大数定律告诉我们：

这是因为先进行了随机变量和的去中心化让后比上一个增长因子，这样我们才能使得使得其分布函数序列弱收敛于一个分布函数，然后我们用近似分布区代替和的分布，使得其特征函数序列也收敛于一个特征函数，这样我们就能够运用特征函数去求出随机变量和的分布问题：

回顾一下我们之前的标准化我们不妨将随机变量和中心化之后再比上其标准差进行标准化

有这样就能够使得不论n为多少，使得的分布能够大致稳定下来即依照概率能够使得当收敛于某一个,其分布函数也弱收敛于一个分布函数.

当是服从参数为的两点分布的时候，则有下述历史上著名的

棣莫弗(De Moivre)—拉普拉斯(Laplace)定理：

在n重伯努利试验中，事件A在每次试验中出现的概率为 ,为n此试验中事件A出现的次数，则

此定理的说明‘’二项分布收敛于正态分布‘’，当n很大的时候可以用来近似计算二项分布的取值

而且此定理还可以用来计算伯努利大数定律事件发生的概率，而伯努利大数定律只是说明频率收敛于概率并没有说事件发生的概率是多少，由此可知此定理比伯努利大数定律更强.

此定理的发明由棣莫弗首先研究，而后由拉普拉斯推广，这个定理的提出就是正态分布出现的雏形，但遗憾的是两位数学家并没有把正态分布当成一回事情，只是把它用来近似计算二项分布，以前我们提到过二项分布收敛于泊松分布但是这里又提二项分布收敛于正态分布这是不是冲突嘞？这其实不冲突，二则收敛的条件不同罢了，收敛于泊松分布是要求，而正态分布则是要求 ,经过其他数学家的推广，然后高斯才用正态分布来计算误差，而后拉普拉斯又整合中心极限定理发现随机误差正是满足中心极限定理的.

将上面的定理推广之后就能够得到更加一般的定理即林德贝格—勒维(Lindeberg-Levy)定理：

若诸是一系列独立同分布的随机变量，且

则有

上面的定理我们是在独立同分布的情形下提出的，但在现实环境中众多的微小元素虽然是独立的但是却未必是同分布的，因此我们要考虑独立但是未必同分布的的随机变量序列的分布问题，为解决这一问题就有了林德贝格定理：

设随机变量序列满足林德贝格条件(这个定理主要是保证能够稳定下来不趋向于无穷)则当是对任意的x，有

故此定理证明了由大量的微小且独立的随机因素并且积累而形成的变量，将会是一个正态随机变量，这样就能够理解为什么误差理论可以用正态分布来描述了.说白了中心极限定理就是用来描叙正态分何以成为正态分布，什么样的随机变量服从正态分布的一个定理.

概率论总结关于第二篇

一估测方差用卡方，估测均值，用正太或t,, 方差已知用N, 未知用T。

假设检验：

根据样本，估计总体的某假设H零的真伪，应该拒绝还是接受

u检验：总体标准差σ已知

t检验：用于样本含量较小(如n<六零)，总体标准差σ未知，呈正态分布的计量资料

F检验：用来检验两总体的方差是否相等，如果相等，则样本方差的比值符合F分布。

概率论总结关于第三篇

这个理解了都不用特意去记要用的时候信手捏来，我是个很勤快的人其他公式都懒得记懒得写了。。。。下面只分析条件概率、全概率公式、贝叶斯公式：

条件概率：

所谓条件概率就是在事件A发生的情况下B发生的概率，即A B为样本空间中两两事件若P(B)>零则称：

为在B发生的前提下A发生的条件概率，简称条件概率。

这个公式不难理解，实际上上面公式也就是说“ 在B发生的条件下A发生的概率等于事件A与事件B共有的样本点的个数比上B的样本点的个数”，而且可以验证此条件概率满足概率的三条公理化定义。

乘法公式：

全概率公式：

设为样本空间的一个分割，即互不相容，且 ,如果则对任一事件A有：

这个公式也是很好理解的因为诸互不相容而且其和事件为样本空间，故A事件中的样本点的个数等于A与诸_有样本点的和。

贝叶斯公式：

贝叶斯公式是在全概率公式和乘法公式的基础上推得的。

设若为样本空间的一个分割，即互不相容，且如果则：

公式的证明是根据条件概率来的，然后在把分子分母分别用乘法公式和全概率公式代替即可，公式中的一般为已知概率称之为先验概率公式中则称之为后验概率，全概率公式和乘法公式为由原因推结果，而贝叶斯公式则为由结果推原因。

事件独立性：

上面我们关于了条件概率这个概念，在条件A下条件B发生的概率为 ,如果B的发生不受A的影响嘞？直觉上来讲这就将意味着

故引入如下定义对任意两个事件A,B若则称事件A与事件B相互独立

除了两个随机事件相互独立满足的定义当然也会有多个随机事件独立满足的定义，对N随机事件相互独立则要求对事件中的任意个随机事件都相互独立.

伯努利概型：

定义：如果实验E只有两种可能的结果：,然后把这个试验重复n次就构成了n重伯努利试验或称之为伯努利概型.显然每次伯努利试验事件结果之间是相互独立互不影响的，则伯努利试验显然是服从二项分布的，之后再关于二项分布。

概率论总结关于第四篇

二维分布函数 （联合分布函数）： F(x,y)=P\{X\le x,Y\le y\},\ \ x,y\in R . 基本性质：

（边缘分布函数）： F_X(x)=F(x,+\infty),F_Y(y)=F(+\infty,y) . （条件分布函数）： F_{X|Y}(x\ |\ y)=P\{X\le x\ |\ Y=y\}=\int_{-\infty}^x\dfrac{f(x,y)}{f_Y(y)}dx , F_{Y|X}(y\ |\ x)=P\{Y\le y\ |\ X=x\}=\int_{-\infty}^y\dfrac{f(x,y)}{f_X(x)}dy .

一维（分布律）： P\{X=x_k\}=p_k,\ \ k=一,二,\cdots .

二维

（联合分布律）： P\{X=X_i,Y=Y_i\}=p_{ij},\ \ i,j=一,二,\cdots .

（边缘分布律）： p_{i\cdot}= P\{X=x_i\},p_{\cdot j}=P\{Y=y_i\} .

（条件分布律）： P(X=x_i\ |\ Y=y_i)=\dfrac{p_{ij}}{p_{\cdot j}},P(Y=y_j\ |\ X=x_i)=\dfrac{p_{ij}}{p_{i\cdot}} .

方差 D(X)=E[X-E(X)]^二=E(X^二)-E^二(X) .

标准差 \sigma(X)=\sqrt {D(X)} . 协方差 Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}=E(XY)-E(X)E(Y) .

相关系数 \rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(x)}\sqrt{D(Y)}} .

矩

一零-一分布（两点分布）

二二项分布

三泊松（Poisson）分布

四几何分布

五超几何分布

一均匀分布

二指数分布

三正态分布

四卡方分布

五 t 分布

六 F 分布

*七 \Gamma 分布

一 Y=g(X) 的分布

设随机变量 X 的密度函数为 f_X(x),x\in R ， Y=g(X) 存在反函数 X=h(Y) ，则 Y 的密度函数为

f_Y(y)=\begin{cases} f_X[h(y)]|h^\prime(y)|,&\alpha< y< \beta,\\ 零,&其它, \end{cases} \\

其中 \alpha,\beta 为常数，视情况确定.

二 Z=X+Y 的分布

f_Z(z)=\int_{-\infty}^{+\infty}f(z-y,y)dy=\int_{-\infty}^{+\infty}f(x,z-x)dx. \\

若 X,Y 相互独立，可得卷积公式.

三 Z_一=\dfrac YX,Z_二=XY 的分布

f_{Z_一}(z)=\int_{-\infty}^{+\infty}|x|f(x,xz)dx.\\ f_{Z_二}(z)=\int_{-\infty}^{+\infty} \dfrac{一}{|x|}f(x,\dfrac zx)dx. \\

四 M=max\{X,Y\},N=min\{X,Y\} 的分布

设 X,Y 相互独立，则：

\begin{align} &F_M(z)=F_X(z)F_Y(z).\\ &F_N(z)=一-\big[一-F_X(z)\big]\big[一-F_Y(z)\big]. \end{align} \\

概率论总结关于第五篇

离散型随机变量函数的分布：

随机变量函数指是定义在X上的一个函数而X是一个随机变量则显然也可看做是一个随机变量,对于离散型随机变量函数的分布列只需要把随机变量替换成随机变量的函数就可以了,数学期望和方差也按照定义求之即可不做过多叙述

连续型随机变量的函数：

求离散型随机变量函数的分布列是很容易的一件事情,而对连续型随机变量我们不能直接把随机变量的函数带入密度函数求出随机变量函数的分布列的，而需要从随机变量的分布函数推得随机变量函数的分布函数然后对随机变量函数的分布函数求导即可得到随机变量函数的密度函数,我们可以将此问题分为两种情况讨论。

一、当Y=g(X)单调的时候：

定理一.

设X是连续型随机变量,其密度函数为.是另一个随机变量.若严格单调 ,其反函数有连续的导函数 ,则的密度函数为：

因为我们知道X的密度函数所以可以求出其分布函数,然后有X的分布函数推出的分布而后求导即可得到随机变量函数的密度函数 .

定理二.

设随机变量则.

定理三.

设随机变量X服从伽马分布,则当时, 有

二、当g(X)为其他形式的时候：

为其他形式也即不单调的时候不能用上面的公式只能依靠X的分布函数去推的密度函数.

分布函数的其他特征数：

数学期望和方差是随机变量重要的两个特征数, 随机变量还有其他的特征数,下面做一一给出其定义和关于.

K阶矩：

k阶原点矩：

将称之为X的k阶原点矩,显然当k=一是即为数学期望

k阶中心矩：

将称之为k阶中心距,显然当k=二的时候即为方差

k阶原点矩的意义为随机变量偏离原点的数学期望

k阶中心距的意义为随机变量偏离中心的数学期望

变异系数：

方差反映了随机变量取值的波动程度,但比较两个随机变量的波动大小时,如果仅看方差有时候是不好做比较的,原因有两个.

其一:随机变量的取值有量纲,不同的随机变量仅仅用方差去(或者标准差去衡量)显然是不太合理的.

其二:即使是在相同量纲的条件下,随机变量的取值有一个相对性问题,随机变量取值较大的通常情况下其方差也更大

因此为了消除量纲与随机变量取值的相对性对随机变量取值的影响,我们引入一个一个新的特征数即变异系数.

设随机变量的方差和数学期望都存在则称：

为X的变异系数,通过变异系数的表达式我们看到标准差比上数学期望消除了量纲的影响即变异系数是一个无量纲的量,而且也把数学期望作为单位去度量随机变量取值的波动性.

如果还不能理解变异系数的表达式给大家打个浅显的比方譬如,有甲乙丙丁四位IT从业人员,甲乙两位是普通程序员,甲的收入的月薪二零K,乙的收入是月薪三零K,在甲乙的阶层平均收入是月薪二五K.丙丁两位是高管,丙的收入是月薪二四W,乙的收入是月薪二七W,丙丁阶层都是CTO(Chief Technology Officer)的平均收入是月薪二五W.现在问是甲和乙的收入差距大些还是丙和丁的收入差距大些,一般人肯定会认为是丙和丁的差距大些,为什么嘞？因为他们认为丙和丁相差三W而甲和乙只相差一W那么显然是前者相差大一些.谬也!因为首先甲乙和丙丁两个人不在同一条水平线上,他们的收入的量纲一个是K(即一千RMB)后者的量纲是W(即一万RMB) ,如果仅仅只是比较经济收益差异的大小那么显然前者是要小于后者的,但是这样片面的比较是不科学的,就像我拿自己身上穿的一零块钱一双的休闲鞋和别人几万块钱一双的名牌鞋去比较一样,结果显而易见但是没有什么意义.其次,甲乙和丙丁因为不在同一个阶层甲乙之间的收入差距一W在丙丁阶层看来是无足轻重的,就像我如果现在一天赚了一KRMB我会相当高兴但是如果马云一天只赚一KRMB在他看来跟阿里巴巴没有赚钱是一个意思,甚至还要亏钱,因为阿里巴巴每天的运营成本都远大于这个值.因此要比较甲乙和丙丁的收入差距我们就得消除以上的影响,必须要相对性的比较也就是说把甲乙间的比较放在甲乙的那个阶层进行度量,把丙丁间的收入差异放在丙丁的阶层进行度量,得到一个与阶层无关的系数,把他们的差异放到同一个标准下这样就能够比较甲乙和丙丁到底是前者间的差异大还是后者间的差异大.因此我们只需要把甲和乙的收入差距一零K比上他们那个阶层收入的平均值二五K的比例系数,丙丁之间也做同样的处理得比例系数显然甲乙得到的系数大于丙丁得到的差异系数因此甲乙之间的收入差距是要大于丙丁之间的收入差距的.

上面的变异系数的表达式的原理就是我所打比方的原理.

分位数：

设连续型随机变量X的分布函数为,密度函数为,对任意的,称满足条件

的为此分布的p分位数,若则称为此分布的中位数.

偏度系数：

一说到这个偏度系数我就很纳闷了,明明是个很简单的特征数为什么就是有那么多人理解不了,有些学弟学妹们问过我有些考研的研友也问过我,说他们做题目的时候虽然会做但是就是不能理解这个偏度系数到底是个什么意思,我虽然告诉他们这个特征数的含义,但是并不能确定他们是否理解了,因为语言表达和书面表达是不能划等号的,就像笔者本人看起来就是吊儿郎当的别人不骂我做流氓我就心满意足了,但是我内心深处其实是个很正经很内向的人(肯定有自己的同学要骂我不要脸了O(∩∩)O哈哈~),现在我将他详细的写出来并且配上图片说明,要是在不懂是个什么意思我把电话号码居住地址告诉你你过来干脆打死我算了O(∩∩)O~,有些人还问过我其他的特征数比如协方差与协方差矩阵,相关系数,不急后面我都会一一做解释的：

设随机变量X的前三阶矩都存在,则比值

称为X的偏度系数,简称偏度.当时,则称该分布为正偏,又称右偏；当时,则称该分布为负偏或者左偏

偏度是描叙一个分布对称性程度的一个特征数,这个可以从以下几个方面进行解释

当密度函数p(x)数学期望对称的时候这时候有即随机变量取值在均值左边的概率等于随机变量取值在均值右边的概率故其三阶中心矩必等于零,从而其偏度系数必定为零,这表明对称的分布其偏度系数为零,如正态分布是对称的分布其偏度系数为零.

当偏度时候,该分布为偏态分布,当时候为左偏,当时为右偏,左偏右偏的含义下面配图更加直观形象的进行解释.

上面图像是当偏度系数大于零的时候即右偏的时候分布函数的大致图像轮廓,黄色的线表示均值分割线,现在我们来根据图像理解偏度系数的表达式偏度系数 ,在上面的图像中,意味着,其分布函数有如下特性：

均值右边的概率即分布函数以均值为分割线右边区域的面积大于左边区域的面积或者右边图像曲线的尾巴拖得很长很长或者两者兼而有之,那如何解释这样的分布函数图像的性质嘞？这还得从表达式中的来分析因为的决定的正负情况,右偏的时候,因为均值左边的值是决定的主要因素,均值右边的值是决定的主要因素,当时候,这意味着取得大于均值的X的值比取得小于X的值要多(当样本总数固定的时候即取得均值右侧值的概率(均值右侧分布函数曲线的面积)要大于取得左侧值的概率(均值左侧分布函数曲线的面积))或者当取得X的值大于均值的数量小于取得X值小于均值的数量的时候,取得大于均值的X的值偏离均值的程度就要大于取得均值左边的值,这种情况就造成了分布函数的尾部拖得很长很长或者两者兼而有之如上面的分布函数图像所示.

当的时候依上类推即可.这就是偏度系数表达式分子的意义所在,下面继续解释分母的意义.

偏度系数分母的也与变异系数的分母有着相同的作用都是为了消去量纲,使得各个分布的偏度系数具有相同的量纲,但是这里有一个问题不知道大家到底想没有想过, 为什么偏度系数的分子不用或者而改用 ,在理论上来讲使用前者也是行得通的,但是为什么要用后者嘞？这很奇怪耶,难道是数学家们吃饱了撑的硬是要给你整个三次方出来显得更专业更加高大上？显然高尚的数学家们是不会这样无聊的,那么为什么不用前者而用后者嘞？其实前面在均值部分我们就提到过平均值是稳定于均值的,而的平均值是等于零的因此对任何分布而言都是恒等于零的这显然不能用作偏度系数的分子,那为什么不用嘞?因为我们是打算选用标准差来度量偏度系数消去量纲,二次方的分子就是方差如果要消去量纲的话那岂不是所有的偏度系数都恒等于一了？因此选择三次方是最理想的.

峰度系数：

设随机变量X的前四阶原点矩存在,则：

称为X的峰度系数,简称峰度.

峰度系数是描述分布尖峭程度或尾部粗细程度或二者兼述的一个特征数

想要描述一个分布函数的尖峭程度以及尾部粗细程度显然这是一个两个分布之间的特征数,因为一个分布函数的尖峭程度与尾部粗细其实并不像偏度系数那样可以判定一个分布是左偏还是右偏,一个分布的对称程度是好判定的但是一个分布函数的尖峭程度你如何去判定？如何才算是尖峭？如何擦算是尾部很粗？这个必须得通过比较两个分布之间的尖鞘程度和尾部粗细程度才能够实现,但是各种各样的分布都有,在分布空间里任选两个分布进行比较组合方式多种多样因此这使得比较的系数也会多种多样,那我们可不可以选取一个分布为参考分布将所有的分布都与其进行比较？答案是肯定的,设定了比较的参考分布之后我们就能够想办法构造统一的峰度系数来进行尖峭程度的比较,但是我们应该选取一个怎样的参考分布嘞？这个得先认清楚峰度系数的目的是判定尖峭程度和尾部粗细,为了更加形象的描述了解其含义我们先来看下图：

显然比较紫色分布和黄色分布的剑鞘程度我们是很好比较的显然是紫色的分布更加尖峭,而且尾部更加的粗细,尖峭和尾部的特征我们只能够感性的认识而不能够精确的认识的,所以才需要比较,上图是峰值相等两个分布比较其尖峭程度和尾部特征的情况，这是一种和理想的情况下，我们现在这种和理想的情况下来构造描述其尖峭度和尾部长短的系数，显然如果上图分布的两个均值都是在取峰值时候的横坐标，这时候可以想象的到两个峰值相等而且均值都在峰值处取到的两个分布,如果随机变量取值偏离均值的程度越大点数越多那么分布也就越尖峭或者尾部也就托的更长或者二者兼有,这样我们像构造偏度系数样很自然的构造出系数:

,假如黄紫的系数分别,则二者相减就可以比较上图两分布的尖峭程度或尾部长短了，当两个分布的峰值不在均值处的时候，对有比较尖峭程度和尾部特征需求的分布而言经验告诉我们其均值往往位于峰值的横坐标不远处这时候我们就可以近似的把峰值看做在其均值处取得，这样就可以适合我们构造处的系数表达式，另外我们可以证明任何正态分布的系数都等于三，这样如果把正态分布当做是参考分布就再好不过了因为其任意分布的都为三，这意味着我们可以将正态分布中的任何一个分布拿出来与我们所想比较的分布进行系数比较都是一样的,这是很方便的.由此我们就得出了偏度系数的表达式:

实际上如果我们将的分子分母同时除以,并且记X得标准化变量为则偏度系数可以化为如下形式：其中.

故峰度系数就等于随机变量标准化之后的四阶原点矩与标准正态分布的四阶原点矩之差：由此当峰度系数和偏度系数越接近于零的的时候其分布也就越趋向于正态分布.且峰度系数和偏度系数都是以正态分布为基准确定的。

(一)当时候标准化后的随机变量的分布比标准正态分布更尖峭和(或)尾部更加长(短)

(二)当时候标准化后的随机变量的分布比标准正态分布更平坦和(或)尾部更加短(长)

(三)当时候标准化后的随机变量的分布与标准正态分布剑鞘程度与尾部特征更加相当

偏度与峰度都是用来描述分布形状的特征数,他们的设置都是以正态分布为基准的(因为正态分布应用很广泛，正态分布就是分布中的典型),当偏度系数和峰度系数皆为零或者近似零的时候该分布也就被认为是正态分布或者近似正态分布

其实偏度系数和峰度系数的表达式咋一看觉得让人摸不着头脑，但是当你认真理解了之后就会觉得他的设计很精妙，学数学光会使用公式是不行的，还必须了解公式背后的思想，以及伴随着公式的形成过程数学家们的思维过程

概率论总结关于第六篇

X在区间【a,b】上分布概率是等可能的，取决于的值

应用：求点落在某个固定区域内的概率

应用：可以用来表示独立随机事件发生的时间间隔。可用来描述长寿命电子元件的使用寿命。

指数分布的无记忆性：如果一个随机变量呈指数分布，P{X>t+n |X>t}=P{X>n}（X> t的情况下，大于t+的概率等于X > n的概率）

区分指数分布和泊松分布：指数描述随机事件单位时间内发生的次数，而指数分布描述随机事件发生的时间间隔。

八，正态分布：高斯分布

应用：当在大量随机变量上重复很多次实验时，它们的分布总和将非常接近正态分布。

自然界、人类社会、中的很多现象均服从正态形式分布

（中心极限定理）

每个样本值与全体样本的平均数之差的平方值的平均数

用来度量随机变量和其数学期望（即均值）之间的偏离程度；

一个样本的方差越大说明数据的稳定性差波动比较大；方差小说明数据比较稳定数据在平均值上下波动的幅度小

表示全体样本的均值。

大数定律规定，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值

K阶原点矩是 E（X^k），对x的k次方求期望。一阶原点矩是期望。

K 阶中心距E（x-E(x) ）^K, 对x-Ex 的K 次方求期望。二阶中心距是方差

研究变量之间线性相关程度的量

相互独立一定不相关，反过来不对。

概率论总结推荐

相关推荐