小说、意境、文生图

By author:

November 16, 2024 | 3 minutes read

小说，文字的集合。图片或者视频，像素的集合。

一千个读者有一千个哈姆雷特，每一个读者对于同一段文字的解读也是不一样的, 图片或者视频的信息相比于文本传递就更加的精准。然而，我们读过小说之后，脑海里就会有相应的影像，或者我们称之为意境。

一个有趣的问题是，人类是怎样形成这种对应关系的呢？或者说，不同的人对于同一段文字的不同理解又是来自于什么呢？在回答这个问题之前，不妨先看看在机器学习领域，是如何解决的。

比如，我们现在一个数据集$D=\{x_i, c_i\}_{i=1}^N$, 我们希望构建一个映射 $\mathcal{M}: \mathcal{C} \rightarrow \mathcal{X}$。从文本到意境的映射不是1对1的，如果我们要来构建这个映射，应该如何做呢？作为一个机器学习的问题，我们总希望$\mathcal{M}$尽可能平滑，即对于 $c_i, c_j \in \mathcal{C}$, 如果$c_i, c_j$在$\mathcal{C}$里比较近，我们希望生成的$x_i, x_j$也会比较近。

$$ \forall |c_i,c_j|_{\mathcal{C}} \le \epsilon, x_i=\mathcal{M}(c_i),x_j=\mathcal{M}(c_j), s.t., |x_i, x_j|_{\mathcal{X}} \le \gamma $$

这样的平滑约束，并不是很好直接进行建模, 不过我们可以考虑对于$\mathcal{C}、\mathcal{M}$分别进行建模，将其映射到对应的流形上去（最好还是欧氏空间的），再建立这两个流形之间的映射。

之前浅谈 Diffusion Model里有提到, diffusion使得我们可以对$z\sim \mathcal{N}(0, I)$的采样从而实现对于数据分布的采样$\text{dp}^{-1}(z)\rightarrow x\sim p(x)$。然而，这样的生成是随机的，我们没有办法控制生成的图片。

Diffusion Models Beat GANs on Image Synthesis 提出了使用classifier来引导$\text{dp}^{-1}$, 将逆向的$p_{\theta}(x_t|x_{t+1})$ 替换成为$p_{\theta,\phi}(x_t|x_{t+1}, c)$，s.t., $$p_{\theta,\phi}(x_t|x_{t+1}, c)=Z{p_{\theta}}(x_t|x_{t+1})p_{\phi}(c|x_t)$$ $p_{\phi}(c|x_t)$ 使用泰勒展开，于是相当于每一步$x_{t+1}\rightarrow x_t$的时候，引入classifier对于$x_t$的梯度， $\nabla_{x_t}p_{\phi}(c|x_t)$， $$ \mu, \Sigma \leftarrow \mu_{\theta}(x_t), \Sigma_\theta(x_t) $$

$$ x_{t-1} \sim \mathcal{N}(\mu + s \Sigma\nabla_{x_t}log p_{\phi}(c|x_t), \Sigma) $$ 直观上也比较好理解，相当于每一步都往$c$的类别上推进，或者说每一步是综合了原有的denoise的操作以及classifier的牵引操作。这是在训练之后的融合，那在训练过程是否可以做这样的融合呢，或者说让$\mu_{\theta}$既有denoise的功能，同时也能够根据$c$来牵引恢复数据。 CLASSIFIER-FREE DIFFUSION GUIDANCE 提出，在训练的过程中，随机将$c$置为空，这样训练出来的denoise network在有$c$的时候，可以利用$c$的信息的引导恢复，在没有$c$的情况下，使用默认的方式来denoise.

总结一下，diffusion使用文字生成图像的方法在于，文字只是作为condition的类别存在，在denoise process 下，不同的$z\sim \mathcal{N}(0, I)$，使得生成的图像不同。引入新的变量，从而解决非1vs1映射的问题。回到人脑的思考上来，不同的脑部的神经元分布以及联接也都是不一样的，相当于$\mu_{\theta}$每一个人不一样。我们理解认知的不同，可能是之前的经历、成长的环境产生的，也可能是当时的情绪（或许能够类比这里的$z$)。不同的经历，不同的情境，使得人们对于一段文字的理解产生不一样的理解。当然，人脑看到文字也不一定都要映射到图像上来，应该是某种文字或者图像所共用的表达方式。