雾里的画师 —— 用一则寓言读懂扩散模型

很久以前，在北方群山之间，有一座终年被浓雾笼罩的小城，叫做白岚城。城里有位年轻画师，名叫雾生。

他有个奇怪的本事：别人作画，是先看清事物，再一笔一笔画出来；而他却恰恰相反——他总是从一团混乱的雾里，慢慢"看见"一幅画。

人们都觉得这很荒唐。"雾里怎么会有画呢？"雾生只是笑笑，不解释。

雾里的画师与海上的图书馆

一座漂浮的图书馆

有一天，老城主请他来，说："我想要一幅从未存在过的画：一座漂浮在海上的图书馆，黄昏时分，天空有两个月亮。"

众人哄堂大笑。"这世上根本没有这样的地方，怎么画？"

但雾生点点头："可以。"

他拿来一张白纸，却没有立刻下笔，而是先把整张纸用灰黑色的颜料胡乱涂满，像暴风雪后的窗户，什么都看不清。旁人更困惑了："你这是在毁画。"

雾生却说："真正的画，要先学会藏起来。"

接下来的日子，他每天只做一件事：擦掉一点点混乱。不是全部，不是一下子，而是一点点。

今天擦出一点光影，明天擦出一段海岸，后天隐约出现书架的轮廓，再后来，两轮月亮在雾中浮现。他像是在和浓雾谈判。不是创造，而是不断地问："这里本来应该是什么？"如果擦错了，他就重新判断。如果模糊，他就继续观察。

整整四十九天。

最后那张纸上，竟真的出现了一座悬浮海上的图书馆。海水安静，书页翻动，黄昏像金色的呼吸，两个月亮悬在远方。

雾从哪里来？

全城震惊。有人问："你到底是怎么做到的？你明明一开始什么都没有。"

雾生摇头。"不，我一开始什么都有。只是它们全都混在了雾里。"

老城主又问："那你怎么知道该擦掉哪里？"

雾生回答："因为我先听见了名字。'漂浮的图书馆'，'两个月亮'，'黄昏'，'海'。这些词，像远处传来的钟声。我顺着声音，在雾里找路。"

后来，他收了个徒弟。徒弟学了很久，始终不得要领。他总想着："我要直接画出结果。"

雾生便带他去山顶。清晨，大雾漫山。他说："看见那座塔了吗？"徒弟说："看不见。"雾生问："那它不存在吗？"

徒弟沉默了。

雾生说："画，也是一样。你不是从无到有地创造世界。你是在混沌里，逐步逼近那个最合理的世界。真正的作画，不是下笔，而是去噪。"

很多年后，白岚城的人仍然记得那位画师。他们说：他不是在画画。他是在教世界，如何从混乱中，慢慢长出秩序。

故事背后的真正知识：Diffusion Model

这整个故事，其实对应的就是现代 AI 生图最核心的原理——扩散模型（Diffusion Model）。

像 Stable Diffusion、Midjourney，以及我们这个站点用到的 GPT Image 2，本质上都重度使用这个思想。

一句话理解它：

它不是从零开始直接画图，而是先从一团随机噪声开始，再一步一步"去噪"，最后变成图片。

就像故事里的雾生：先把纸涂乱（纯噪声），再一点点擦出来（逐步去噪），最后得到图像。

训练阶段：教 AI 学会"如何去噪"

训练阶段：从清晰图像到噪声的逆向学习

训练时，模型会这样学习：

第一步，拿一张真实图片，比如一只猫。

第二步，不断往里面加噪声：

第 1 次：猫还清楚
第 100 次：开始模糊
第 500 次：几乎看不见
第 1000 次：彻底变成随机雪花点

第三步，训练 AI 去回答："如果现在这么乱，原来的图大概长什么样？"

也就是学习"逆过程"：从乱 → 清晰。

这就是核心。

生成阶段：真正开始画图

生成阶段：从纯噪声中逐步去噪出最终图像

真正生成时，AI 手里根本没有图片。它只有一团随机噪声，和一句提示词：

一只戴宇航员头盔的橘猫，在月球喝咖啡

于是模型开始：

第 1 步：稍微去噪
第 30 步：开始出现猫的轮廓
第 80 步：宇航员头盔出现
第 150 步：月球背景形成
第 300 步：细节完成

最后，图片诞生。

那文字为什么能控制图片？

Conditional Generation：文本作为条件，引导每一步去噪

因为还有一个重要模块：Text Encoder（文本编码器）。

它会把"橘猫 + 宇航员 + 月球 + 咖啡"变成一组数学向量（条件信号），然后在去噪过程中不断提醒模型：

"别忘了，是橘猫，不是黑猫"
"是在月球，不是在厨房"

这就叫 Conditional Generation（条件生成）。

为什么 Diffusion 比 GAN 更强？

Diffusion vs GAN：稳定性、可控性、质量、规模四个维度的对比

早期很多 AI 生图靠的是 GAN（生成对抗网络）。但 GAN 经常不稳定、容易崩、难训练、多样性差。

而 Diffusion 更稳定、更容易控制、质量更高、更适合大模型时代。所以现在基本成为主流。

最本质的一句话

AI 生图的本质不是"创造"，而是：

在概率空间里寻找"最像图像"的那个结果。

它像是在无限混乱中，不断问："这里最合理的下一步，应该是什么？"

这正是现代生成式 AI 最深层的思想。

雾里的画师 —— 用一则寓言读懂扩散模型

目录