中文笔记(Under constructing):An Introduction to Discrete Variational Autoencoders
统计学基础:
数学符号:
标量(Scalar-valued variable):,
向量、矩阵或向量拼接(Vectors, matrices, concatenations of vectors):,
概率分布(Probability Distributions):, 从分布中采样或随机变量的记法:,
可学习的参数:,
概率密度函数(或概率质量函数): , ,
分布在参数 下对 的评估: ,
概率分布下的期望表示: , 积分形式展开:
概率与信息度量(Probabilities and Information Measures)
编号 | 概念 | 表达式 |
---|---|---|
(1) | 联合概率与条件概率关系 | |
(2) | 全概率公式 | |
(3) | KL 散度(KL Divergence) | |
(4) | 熵(Entropy) | |
(5) | 交叉熵(Cross-Entropy) | |
(6) | 离散熵(Discrete Entropy) | |
(7) | 离散交叉熵(Discrete Cross-Entropy) | |
(8) | 二元交叉熵(Binary Cross-Entropy) | |
(9) | 批量熵(Aggregate Entropy) | |
(10) | 批量二元交叉熵(Aggregate Binary Cross-Entropy) |
复习:
条件概率表示在事件 B 发生的前提下,事件 A 发生的概率是多少。
KL 散度衡量的是:如果你用分布 p 来近似真实分布 q,会造成多大的“信息损失”。如果 ,即两分布完全一致,KL 散度为 0。它是非对称的:
熵用来量化一个概率分布的不确定性。如果一个事件很确定 —— 熵为 0。如果事件非常不确定,比如硬币有一半的几率是正面,一半是反面,那么结果完全不可预测 —— 熵最大。
交叉熵是评价用预测分布 q 来描述真实分布 p 有多糟? = 真实熵 + 预测带来的额外损失(KL 散度)
离散概率分布(Discrete Probability Distributions)
- 伯努利分布(Bernoulli Distribution):适用于仅有两个结果(例如抛硬币)的事件。
定义为:
, p是一种情况发生的概率
伯努利分布概率质量函数为:
亦可写作:
- 分类分布(Categorical Distribution):是伯努利分布在 个结果上的扩展。
定义为:
概率质量函数为:
可以使用Iverson Bracket简明表示为:
同样可以简写为:
最大似然估计(Maximum Likelihood Estimation)
当我们建立一个模型来估计分布 时,常见的方法是选择一组最优参数 ,使得在该模型下观察到的数据的联合概率(joint probability)最大。这种方法称为最大似然估计(MLE)。
给定一组观测数据 ,我们希望找到能最大化似然函数的参数:
由于直接对乘积求最大值在数值计算中容易出现问题,我们通常对似然函数取对数,转为对数似然函数:
对数不会改变最大值的位置,所以最终解是相同的。
蒙特卡洛采样(Monte Carlo Sampling)
在优化模型时,我们经常需要计算如下形式的目标函数的梯度:
其中:
- 是模型的可学习参数;
- 是某个固定的分布(通常是训练数据分布);
- 是与输入 和参数 有关的函数,例如损失函数。
上述期望一般是一个积分(或和),它包含了所有可能样本 的信息。但是,在实际中:
- 数据集有限,我们无法枚举所有 ;
- 积分难以解析求解,尤其当 是复杂或隐式分布。
因此,通常我们只能对一个(或几个)样本 估计这个梯度:
这种做法称为 蒙特卡洛估计(Monte Carlo estimate)。
它的核心思想是: > 用少量样本的梯度来近似整个分布下期望的梯度。
当我们采样 个样本 ,对每个计算梯度并取平均,有:
这意味着,当样本数量足够大时,我们就可以逼近真实的期望梯度。这个结论依赖于 大数定律(Law of Large Numbers)。
使用蒙特卡洛采样得到的估计梯度可以简写为:
即,用单个样本的梯度来近似整体期望的梯度。