Stable Diffusion 是怎么工作的：从去噪到生成图像

旧站文章整理：本文从入行365旧站迁入并做了基础清洗。涉及工具状态、模型版本和平台限制的信息，请以官方当前页面为准；本文重点保留基础机制。

来源标记：旧站原文保留了 Chris McCormick 的作者线索。这里改写成入行之路的机制导读，避免逐段照搬第三方资料。

Stable Diffusion 最容易被误解成“AI 直接画了一张图”。更准确的说法是：它从一团噪声开始，一步步把不符合文本描述的噪声去掉，最后留下一个看起来像目标描述的图像。

这个直觉很重要。它能帮你理解为什么提示词、采样步数、随机种子、模型风格和参考图都会影响结果。

先理解“去噪”

想象一张照片被加了很多噪点，你几乎看不清画面。一个修图师如果知道“这是一只猫坐在窗边”，就会根据经验把噪点逐步清理掉，让猫、窗户和光线变得清楚。

Stable Diffusion 的过程类似，但起点更极端：它一开始面对的不是一张模糊照片，而是一张几乎纯随机的噪声图。

模型要做的事是：根据文本描述，判断每一步应该去掉哪些噪声、保留哪些结构。

文本提示词如何参与生成

当你输入“赛博朋克风格的城市夜景，霓虹灯，雨天街道”，模型不会像搜索引擎一样去找一张现成图片。

它会把文本变成数字表示，也就是模型能处理的向量。这个向量会参与去噪过程，告诉模型应该朝什么方向修正画面。

所以提示词越清晰，模型越容易形成稳定目标。

常见的提示词信息包括：

主体：人、物体、场景。
风格：写实、插画、摄影、像素风。
构图：近景、俯视、对称、留白。
光线：自然光、霓虹、逆光、柔光。
限制：不要文字、不要多余手指、不要复杂背景。

这些信息不是魔法咒语，而是在给去噪过程提供方向。

采样步数是什么意思

很多图像工具里都有 steps 或 inference steps。它大致表示模型进行多少轮去噪。

步数太少，图像可能还没来得及稳定；步数更多，细节通常更充分。但步数不是越高越好，过高也可能带来时间成本、风格僵硬或细节异常。

对用户来说，理解成这样就够了：

采样步数是模型从噪声走向图像的迭代次数。

如果你在调图，不要只改提示词。步数、尺寸、模型、参考图和随机种子都会影响结果。

随机种子为什么重要

同一个提示词，每次生成的图可能不一样，因为起始噪声不同。

随机种子可以理解成“这次从哪一团噪声开始”。当你固定随机种子，再调整提示词或参数，就更容易观察变化来自哪里。

这也是很多设计师做图像实验时会固定 seed 的原因：它能让对比更可控。

模型不是在查图库

一个常见误解是：Stable Diffusion 是从图库里拼图。

更准确地说，它在训练阶段看过大量图文样本，学习文本、视觉结构和图像分布之间的关系。生成时，它不是直接取回某张图片，而是用训练得到的参数来预测每一步如何去噪。

这并不意味着版权、风格和素材边界可以忽略。恰恰相反，公开发布 AIGC 内容时，更需要注意素材来源、人物肖像、商标、平台规则和商业使用范围。

为什么“模型风格”影响很大

不同模型、LoRA 或风格权重，本质上改变的是模型对图像分布的偏好。

同样一句提示词，在写实模型里可能更像摄影，在二次元模型里可能更像插画，在产品摄影模型里可能更重视材质和布光。

所以做 AIGC 工作流时，提示词只是其中一环。更完整的链路通常包括：

选择合适模型。
写清楚主体和用途。
设置尺寸、步数、风格权重。
多轮生成并筛选。
人工修图、排版和合规检查。

入行之路的使用建议

如果你是产品经理、内容运营或设计协作者，不必一开始就深入公式。先掌握这几个判断点：

图像生成是逐步去噪，不是直接画图。
文本提示词负责给去噪方向。
随机种子决定起点，步数决定迭代过程。
模型选择决定风格和能力边界。
发布前必须做人工筛选和使用边界检查。

理解这些，你就不会只停留在“换几个关键词试试”的层面，而能把 AIGC 当成一个可调、可复盘的工作流。

旧站文章整理：本文从入行365旧站迁入并做了基础清洗。涉及工具状态、模型版本和平台限制的信息，请以官方当前页面为准；本文重点保留基础机制。

来源标记：旧站原文保留了 Chris McCormick 的作者线索。这里改写成入行之路的机制导读，避免逐段照搬第三方资料。

这个直觉很重要。它能帮你理解为什么提示词、采样步数、随机种子、模型风格和参考图都会影响结果。

先理解“去噪”

Stable Diffusion 的过程类似，但起点更极端：它一开始面对的不是一张模糊照片，而是一张几乎纯随机的噪声图。

模型要做的事是：根据文本描述，判断每一步应该去掉哪些噪声、保留哪些结构。

文本提示词如何参与生成

当你输入“赛博朋克风格的城市夜景，霓虹灯，雨天街道”，模型不会像搜索引擎一样去找一张现成图片。

它会把文本变成数字表示，也就是模型能处理的向量。这个向量会参与去噪过程，告诉模型应该朝什么方向修正画面。

所以提示词越清晰，模型越容易形成稳定目标。

常见的提示词信息包括：

主体：人、物体、场景。
风格：写实、插画、摄影、像素风。
构图：近景、俯视、对称、留白。
光线：自然光、霓虹、逆光、柔光。
限制：不要文字、不要多余手指、不要复杂背景。

这些信息不是魔法咒语，而是在给去噪过程提供方向。

采样步数是什么意思

很多图像工具里都有 steps 或 inference steps。它大致表示模型进行多少轮去噪。

步数太少，图像可能还没来得及稳定；步数更多，细节通常更充分。但步数不是越高越好，过高也可能带来时间成本、风格僵硬或细节异常。

对用户来说，理解成这样就够了：

采样步数是模型从噪声走向图像的迭代次数。

如果你在调图，不要只改提示词。步数、尺寸、模型、参考图和随机种子都会影响结果。

随机种子为什么重要

同一个提示词，每次生成的图可能不一样，因为起始噪声不同。

随机种子可以理解成“这次从哪一团噪声开始”。当你固定随机种子，再调整提示词或参数，就更容易观察变化来自哪里。

这也是很多设计师做图像实验时会固定 seed 的原因：它能让对比更可控。

模型不是在查图库

一个常见误解是：Stable Diffusion 是从图库里拼图。

这并不意味着版权、风格和素材边界可以忽略。恰恰相反，公开发布 AIGC 内容时，更需要注意素材来源、人物肖像、商标、平台规则和商业使用范围。

为什么“模型风格”影响很大

不同模型、LoRA 或风格权重，本质上改变的是模型对图像分布的偏好。

同样一句提示词，在写实模型里可能更像摄影，在二次元模型里可能更像插画，在产品摄影模型里可能更重视材质和布光。

所以做 AIGC 工作流时，提示词只是其中一环。更完整的链路通常包括：

选择合适模型。
写清楚主体和用途。
设置尺寸、步数、风格权重。
多轮生成并筛选。
人工修图、排版和合规检查。

入行之路的使用建议

如果你是产品经理、内容运营或设计协作者，不必一开始就深入公式。先掌握这几个判断点：

图像生成是逐步去噪，不是直接画图。
文本提示词负责给去噪方向。
随机种子决定起点，步数决定迭代过程。
模型选择决定风格和能力边界。
发布前必须做人工筛选和使用边界检查。

理解这些，你就不会只停留在“换几个关键词试试”的层面，而能把 AIGC 当成一个可调、可复盘的工作流。

先理解“去噪”

文本提示词如何参与生成

采样步数是什么意思

随机种子为什么重要

模型不是在查图库

为什么“模型风格”影响很大

入行之路的使用建议

下一步

Stable Diffusion 是怎么工作的：从去噪到生成图像

先理解“去噪”

文本提示词如何参与生成

采样步数是什么意思

随机种子为什么重要

模型不是在查图库

为什么“模型风格”影响很大

入行之路的使用建议

下一步