高斯分布(正态分布)

高斯分布的概率密度函数(PDF):
$p(x) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
x:观察值,表示我们关心的某个数据点。
μ:均值(mean),表示分布的中心或“期望值”,即数据大多集中的位置。
σ:标准差(standard deviation),表示数据的分散程度。标准差越大,数据越分散,曲线越扁平;标准差越小,数据越集中,曲线越陡峭。
σ2:方差(variance),是标准差的平方,表示数据的离散程度。
2π:是数学常数,用来规范化分布的总概率为1。
左边的是归一化常数字,曲线面积为1,右边是指数函数,与均值越远,概率密度越来越低

0-1分布(伯努利分布)

这太简单了,就不描述了

联合分布 Joint Distribution

联合分布是指多个随机变量同时发生的概率分布,描述了多个随机变量之间的关系。它给出了各个变量的所有可能组合的联合概率。
通常是在已知模型结构的前提下,通过最大化似然函数来估计模型参数。

最大似然估计(MLE)

最大似然估计是一种估计参数的方法,目的是找到使得给定数据出现的概率最大的参数值。换句话说,它试图找到最能解释观测数据的模型参数。

贝叶斯定理

$P(A|B) = \frac{P(B|A) P(A)}{P(B)}$
P(A|B):是后验概率,表示在给定观察到事件B的情况下,事件A发生的概率。
P(B|A):是似然概率,表示在假设A发生的情况下,观察到事件B的概率。
P(A):是先验概率,表示在没有观察到数据B之前,事件A发生的概率。
P(B):是边际概率(或证据),表示事件B发生的总概率。

对数似然

对数似然是似然函数的对数形式。通常我们使用对数似然而非直接使用似然函数,因为对数函数能简化计算,且通常比似然函数更容易处理。
给定数据集,假定服从某种分布,最大化对数似然是在给定分布下最有可能出现的参数

先验分布&后验分布

先验分布

先验分布表示在没有任何观测数据的情况下,我们对某个参数的分布的信念。在贝叶斯框架中,先验分布是我们对未知参数的初步假设。
比如均值、正态分布先验

后验分布

根据贝叶斯定理,后验分布是先验分布与似然函数的乘积,再除以边际概率
$P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}$
P(θ) 是先验分布,表示在没有数据时对参数的信念

Beta分布

Beta分布通常用于描述一个概率值的不确定性。例如,在贝叶斯推断中,Beta分布常常被用作伯努利分布(01分布)的先验分布,因为它的值总是在0到1之间,并且具有灵活的形状。
的确,这个二项分布比较像,但二项分布是不连续的
Beta分布的PDF
$f(x; \alpha, \beta) = \frac{B(\alpha, \beta)}{x^{\alpha - 1} (1 - x)^{\beta - 1}} \quad \text{for} \, x \in [0, 1]$

Beta函数

$B(\alpha, \beta) = \int_0^1 t^{\alpha - 1} (1 - t)^{\beta - 1} \, dt$
Gamma函数与Beta函数
$B(\alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)}$

一些参数

α(alpha)和 β(beta)是形状参数,它们决定了Beta分布的形状。
α>β 时,分布偏向于1;α<β 时,分布偏向于0;α=β 时,分布是对称的。

期望与方差

期望:$E[x] = \frac{\alpha}{\alpha + \beta}$
方差:$\text{Var}(x) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}$