### 1. 起点

$KL\left[q \parallel p\right] = \sum_x q(x) \log \frac{q(x)}{p(x)}$

### 2. 过程

\begin{aligned} KL\left[q(z\mid X) \parallel p(z\mid X) \right] &= \sum_z q(z\mid X) \log \frac{q(z\mid X)}{p(z \mid X)} \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z \mid X) \right] \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z, X) + \log p(X) \right] \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z, X) \right] + \sum_z q(z\mid X) \log p(X) \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z, X) \right] + \log p(X) \end{aligned}

\begin{aligned} KL\left[q(z\mid X) \parallel p(z\mid X) \right] &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z, X) \right] + \log p(X) \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z) - \log p(X \mid z) \right] + \log p(X) \\ &= \sum_z q(z\mid X) \left[ \log q(z\mid X) - \log p(z) \right] - \sum_z q(z\mid X) \log p(X \mid z) + \log p(X) \\ &= KL \left[ q(z\mid X) \parallel p(z) \right] - \mathbb{E}_{z \sim q(z\mid X)} \log p(X \mid z) + \log p(X) \end{aligned}

• 第一项就是编码器 q 模型与隐变量 z 的先验分布之间的 KL 散度，可以解释为让编码器的输出与先验尽可能接近，实际操作中先验一般用多元高斯或者 vMF 分布。
• 第二项就是从编码器采样 z 之后用解码器重建 X 得到的对数似然，可以解释为让解码器将隐变量能尽可能把隐变量 z 还原成编码器的输入 X。
• 第三项是唯一可观测的变量 X 的边际似然。

$\log p(X) \geq - KL \left[ q(z\mid X) \parallel p(z) \right] + \mathbb{E}_{z \sim q(z\mid X)} \log p(X \mid z)$

