雾里的画师 —— 用一则寓言读懂扩散模型

2026/04/29

很久以前,在北方群山之间,有一座终年被浓雾笼罩的小城,叫做白岚城。城里有位年轻画师,名叫雾生。

他有个奇怪的本事:别人作画,是先看清事物,再一笔一笔画出来;而他却恰恰相反——他总是从一团混乱的雾里,慢慢"看见"一幅画。

人们都觉得这很荒唐。"雾里怎么会有画呢?"雾生只是笑笑,不解释。

雾里的画师与海上的图书馆

一座漂浮的图书馆

有一天,老城主请他来,说:"我想要一幅从未存在过的画:一座漂浮在海上的图书馆,黄昏时分,天空有两个月亮。"

众人哄堂大笑。"这世上根本没有这样的地方,怎么画?"

但雾生点点头:"可以。"

他拿来一张白纸,却没有立刻下笔,而是先把整张纸用灰黑色的颜料胡乱涂满,像暴风雪后的窗户,什么都看不清。旁人更困惑了:"你这是在毁画。"

雾生却说:"真正的画,要先学会藏起来。"

接下来的日子,他每天只做一件事:擦掉一点点混乱。不是全部,不是一下子,而是一点点。

今天擦出一点光影,明天擦出一段海岸,后天隐约出现书架的轮廓,再后来,两轮月亮在雾中浮现。他像是在和浓雾谈判。不是创造,而是不断地问:"这里本来应该是什么?"如果擦错了,他就重新判断。如果模糊,他就继续观察。

整整四十九天。

最后那张纸上,竟真的出现了一座悬浮海上的图书馆。海水安静,书页翻动,黄昏像金色的呼吸,两个月亮悬在远方。

雾从哪里来?

全城震惊。有人问:"你到底是怎么做到的?你明明一开始什么都没有。"

雾生摇头。"不,我一开始什么都有。只是它们全都混在了雾里。"

老城主又问:"那你怎么知道该擦掉哪里?"

雾生回答:"因为我先听见了名字。'漂浮的图书馆','两个月亮','黄昏','海'。这些词,像远处传来的钟声。我顺着声音,在雾里找路。"

后来,他收了个徒弟。徒弟学了很久,始终不得要领。他总想着:"我要直接画出结果。"

雾生便带他去山顶。清晨,大雾漫山。他说:"看见那座塔了吗?"徒弟说:"看不见。"雾生问:"那它不存在吗?"

徒弟沉默了。

雾生说:"画,也是一样。你不是从无到有地创造世界。你是在混沌里,逐步逼近那个最合理的世界。真正的作画,不是下笔,而是去噪。"

很多年后,白岚城的人仍然记得那位画师。他们说:他不是在画画。他是在教世界,如何从混乱中,慢慢长出秩序。


故事背后的真正知识:Diffusion Model

这整个故事,其实对应的就是现代 AI 生图最核心的原理——扩散模型(Diffusion Model)

像 Stable Diffusion、Midjourney,以及我们这个站点用到的 GPT Image 2,本质上都重度使用这个思想。

一句话理解它:

它不是从零开始直接画图,而是先从一团随机噪声开始,再一步一步"去噪",最后变成图片。

就像故事里的雾生:先把纸涂乱(纯噪声),再一点点擦出来(逐步去噪),最后得到图像。

训练阶段:教 AI 学会"如何去噪"

训练阶段:从清晰图像到噪声的逆向学习

训练时,模型会这样学习:

第一步,拿一张真实图片,比如一只猫。

第二步,不断往里面加噪声:

  • 第 1 次:猫还清楚
  • 第 100 次:开始模糊
  • 第 500 次:几乎看不见
  • 第 1000 次:彻底变成随机雪花点

第三步,训练 AI 去回答:"如果现在这么乱,原来的图大概长什么样?"

也就是学习"逆过程":从乱 → 清晰。

这就是核心。

生成阶段:真正开始画图

生成阶段:从纯噪声中逐步去噪出最终图像

真正生成时,AI 手里根本没有图片。它只有一团随机噪声,和一句提示词:

一只戴宇航员头盔的橘猫,在月球喝咖啡

于是模型开始:

  • 第 1 步:稍微去噪
  • 第 30 步:开始出现猫的轮廓
  • 第 80 步:宇航员头盔出现
  • 第 150 步:月球背景形成
  • 第 300 步:细节完成

最后,图片诞生。

那文字为什么能控制图片?

Conditional Generation:文本作为条件,引导每一步去噪

因为还有一个重要模块:Text Encoder(文本编码器)

它会把"橘猫 + 宇航员 + 月球 + 咖啡"变成一组数学向量(条件信号),然后在去噪过程中不断提醒模型:

  • "别忘了,是橘猫,不是黑猫"
  • "是在月球,不是在厨房"

这就叫 Conditional Generation(条件生成)

为什么 Diffusion 比 GAN 更强?

Diffusion vs GAN:稳定性、可控性、质量、规模四个维度的对比

早期很多 AI 生图靠的是 GAN(生成对抗网络)。但 GAN 经常不稳定、容易崩、难训练、多样性差。

而 Diffusion 更稳定、更容易控制、质量更高、更适合大模型时代。所以现在基本成为主流。

最本质的一句话

AI 生图的本质不是"创造",而是:

在概率空间里寻找"最像图像"的那个结果。

它像是在无限混乱中,不断问:"这里最合理的下一步,应该是什么?"

这正是现代生成式 AI 最深层的思想。

imagesv2

imagesv2