中文笔记(Under constructing):An Introduction to Discrete Variational Autoencoders

10 天前(已编辑)
3

中文笔记(Under constructing):An Introduction to Discrete Variational Autoencoders

统计学基础:

数学符号:

标量(Scalar-valued variable):,

向量、矩阵或向量拼接(Vectors, matrices, concatenations of vectors):,

概率分布(Probability Distributions):, 从分布中采样或随机变量的记法:

可学习的参数:

概率密度函数(或概率质量函数): ,

分布在参数 下对 的评估:

概率分布下的期望表示: , 积分形式展开:


概率与信息度量(Probabilities and Information Measures)

编号概念表达式
(1)联合概率与条件概率关系
(2)全概率公式
(3)KL 散度(KL Divergence)
(4)熵(Entropy)
(5)交叉熵(Cross-Entropy)
(6)离散熵(Discrete Entropy)
(7)离散交叉熵(Discrete Cross-Entropy)
(8)二元交叉熵(Binary Cross-Entropy)
(9)批量熵(Aggregate Entropy)
(10)批量二元交叉熵(Aggregate Binary Cross-Entropy)

复习:

  1. 条件概率表示在事件 B 发生的前提下,事件 A 发生的概率是多少。

  2. KL 散度衡量的是:如果你用分布 p 来近似真实分布 q,会造成多大的“信息损失”。如果 ,即两分布完全一致,KL 散度为 0。它是非对称的:

  3. 熵用来量化一个概率分布的不确定性。如果一个事件很确定 —— 熵为 0。如果事件非常不确定,比如硬币有一半的几率是正面,一半是反面,那么结果完全不可预测 —— 熵最大。

  4. 交叉熵是评价用预测分布 q 来描述真实分布 p 有多糟? = 真实熵 + 预测带来的额外损失(KL 散度)

离散概率分布(Discrete Probability Distributions)

  1. 伯努利分布(Bernoulli Distribution):适用于仅有两个结果(例如抛硬币)的事件。

定义为:

, p是一种情况发生的概率

伯努利分布概率质量函数为:

亦可写作:

  1. 分类分布(Categorical Distribution):是伯努利分布在 个结果上的扩展。

定义为:

概率质量函数为:

可以使用Iverson Bracket简明表示为:

同样可以简写为:

最大似然估计(Maximum Likelihood Estimation)

当我们建立一个模型来估计分布 时,常见的方法是选择一组最优参数 ,使得在该模型下观察到的数据的联合概率(joint probability)最大。这种方法称为最大似然估计(MLE)

给定一组观测数据 ,我们希望找到能最大化似然函数的参数:

由于直接对乘积求最大值在数值计算中容易出现问题,我们通常对似然函数取对数,转为对数似然函数:

对数不会改变最大值的位置,所以最终解是相同的。

蒙特卡洛采样(Monte Carlo Sampling)

在优化模型时,我们经常需要计算如下形式的目标函数的梯度:

其中:

  • 是模型的可学习参数;
  • 是某个固定的分布(通常是训练数据分布);
  • 是与输入 和参数 有关的函数,例如损失函数。

上述期望一般是一个积分(或和),它包含了所有可能样本 的信息。但是,在实际中:

  • 数据集有限,我们无法枚举所有
  • 积分难以解析求解,尤其当 是复杂或隐式分布。

因此,通常我们只能对一个(或几个)样本 估计这个梯度:

这种做法称为 蒙特卡洛估计(Monte Carlo estimate)

它的核心思想是: > 用少量样本的梯度来近似整个分布下期望的梯度。

当我们采样 个样本 ,对每个计算梯度并取平均,有:

这意味着,当样本数量足够大时,我们就可以逼近真实的期望梯度。这个结论依赖于 大数定律(Law of Large Numbers)

使用蒙特卡洛采样得到的估计梯度可以简写为:

即,用单个样本的梯度来近似整体期望的梯度。

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...