DDIM，多样性与运行效率之间的trade off

DDPM的重大缺陷在于其在反向扩散的过程中需要逐步从 $x_t$ 倒推到 $x_0$ ，因此其推理速度非常缓慢。相反，DDPM的训练过程是很快的，可以直接根据 $x_0$ 到 $x_t$ 添加的高斯噪声 $\epsilon$ 完成一次训练。

为了解决这个问题，就有了DDIM，且包括Stable Diffusion在内的现今广泛使用的Diffusion模型都在使用DDIM。

在DDPM中，我们利用 $P(x_{t-1}|x_{t})$ 来逐步倒推至最开始的 $x_0$ ，这一过程是遵守马尔可夫过程的，即每个时刻的状态只跟上一个时刻的状态有关，因此只能一步步的倒退回去。而实际上，我们最初就是简化了加噪过程，从 $x_0$ 到 $x_t$ 直接一步到位，并没有使用 $P(x_t|x_{t-1})$ 这样按部就班的马尔可夫过程。那么，能不能在倒推的时候也采用类似的思路进行“跳步”，从而达到加快推理的目的呢？

假设我们现在想直接从 $k$ 时刻跳到 $s$ 时刻，且有 $s < k - 1$ ，那么仿照DDPM我们可以写出下列式子
$P(x_s|x_k,x_0)=\frac{P(x_k|x_s,x_0)P(x_s|x_0)}{P(x_k|x_0)}$
其中 $P(x_s|x_0)$ 和 $P(x_k|x_0)$ 满足的分布都好说，可以从正向扩散公式中得出。不知道怎么表示的这一项 $P(x_k|x_s,x_0)$ 因为反正整个模型都没有用过，所以可以先不考虑。（这个解释确实很神奇，但是他有用啊）其实就是说DDIM打破了马尔可夫链从 $0$ 开始逐个往前扩散的模型，而是直接采用从 $x_0$ 到 $x_t$ 的直接公式作为整个模型的backbone，因此从 $s$ 到 $k$ 的正向过程可以“按需定义”，而不必采用DDPM里的公式，所以在这里就直接被忽略了。

言归正传，我们尝试求解一下上面的式子。参考DDPM，我们也可以假设 $P(x_s|x_k,x_0)$ 是满足正态分布的，其均值为 $x_k$ 和 $x_0$ 的加权和，记为
$P(x_s|x_k,x_0)\sim\mathcal{N}(nx_0+mx_k, \sigma^2)$ 写出 $x_s$ 的表达式
$x_s=(nx_0+mx_k)+\sigma\epsilon,\epsilon\in\mathcal{N}(0,1)$ 将 $x_k=\sqrt{\overline{\alpha}_k}x_0+\sqrt{1-\overline{a}_k}\epsilon'$ 代入，可得
$\begin{aligned} x_s&=(nx_0+mx_k)+\sigma\epsilon\\ &=(n+m\sqrt{\overline{a}_k})x_0+(m\sqrt{1-\overline{a}_k}\epsilon'+\sigma\epsilon)\\ &=(n+m\sqrt{\overline{a}_k})x_0+\sqrt{m^2(1-\overline{a}_k)+\sigma^2}\epsilon'' \end{aligned}$ 注意到这个的形式与从 $x_0$ 直接到 $x_s$ 的公式很像，即 $x_s=\sqrt{\overline{\alpha}_s}x_0+\sqrt{1-\overline{a}_s}\epsilon$ ，所以我们可以将这两个系数对应起来求解，得
$m=\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}},n=\sqrt{\overline{\alpha}_s}-\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}\sqrt{\overline{\alpha}_k}$ 将上面的结果带入 $x_s$ 的均值 $nx_0+mx_k$ ，可得
$\begin{aligned} \mu=\sqrt{\overline{\alpha}_s}x_0+\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}(x_k-\sqrt{\overline{\alpha}_k}x_0) \end{aligned}$ 这样我们就求得了 $P(x_s|x_k,x_0)$ 满足的正态分布 $\mathcal{N}(\mu,\sigma^2)$ ，其中只剩 $\sigma$ 为变量， $x_0$ 可以像DDPM一样反解为 $x_k$ 的表达式代入，通过预测加噪的噪声来得到一个确定的 $\mu$ 。

至于方差 $\sigma$ ，一般有两种取值，取 $0$ 时方差为 $0$ ，这个反向扩散就成了一个确定过程，对应标题中所说的“多样性换运行效率”，此时 $\sigma=0$ 的状态就是我们通常所说的DDIM。而 $\sigma=\frac{\sqrt{1-a_t}\sqrt{1-\overline{a}_{t-1}}}{\sqrt{1-\overline{a}_t}}$ ，即在DDPM中推出来的方差时，整个过程会退化为DDPM的倒推过程。

需要注意的是，这里的 $\sigma$ 可以自由取值是因为我们假设 $P(x_s|x_k,x_0)$ 是一个均值 $\mu$ 未知，方差为 $\sigma^2$ 的高斯分布，通过求解 $\mu$ 得到了一个只有 $\sigma$ 为自由变量的 $x_s$ 的表达式。可以把 $\sigma$ 视作一个超参数，只是通过实验发现在 $\sigma=0$ 时效果最好。而DDPM中的方差是通过三个已知的正态分布计算来的，本身就是靠计算得来的确定的方差，所以不能随便更改，如果在DDPM的过程中使 $\sigma=0$ ，效果会非常差。

而从实验结果来看， $\sigma=0$ 的时候还是效果最好的，FID最低。在 $S$ 取 $50$ 或 $100$ ，即加速 $10 - 20$ 倍时保持相近的生成质量。
在这里插入图片描述
更妙的是，因为DDPM中的U-Net预测的是加在 $x_t$ 上的噪声 $\epsilon$ ，这个是基于正向扩散的公式来的。而DDIM并没有改变这一过程，因此一个训练好的DDPM中的U-Net也可以直接拿到DDIM里面，甚至不需要额外训练。DDIM只是更改了DDPM反向扩散的过程，通过跳步加速推理。