旧站文章整理:本文从入行365旧站迁入并做了基础清洗。涉及工具状态、模型版本和平台限制的信息,请以官方当前页面为准;本文重点保留基础机制。
来源标记:旧站原文保留了 Chris McCormick 的作者线索。这里改写成入行之路的机制导读,避免逐段照搬第三方资料。
Stable Diffusion 最容易被误解成“AI 直接画了一张图”。更准确的说法是:它从一团噪声开始,一步步把不符合文本描述的噪声去掉,最后留下一个看起来像目标描述的图像。
这个直觉很重要。它能帮你理解为什么提示词、采样步数、随机种子、模型风格和参考图都会影响结果。
先理解“去噪”
想象一张照片被加了很多噪点,你几乎看不清画面。一个修图师如果知道“这是一只猫坐在窗边”,就会根据经验把噪点逐步清理掉,让猫、窗户和光线变得清楚。
Stable Diffusion 的过程类似,但起点更极端:它一开始面对的不是一张模糊照片,而是一张几乎纯随机的噪声图。
模型要做的事是:根据文本描述,判断每一步应该去掉哪些噪声、保留哪些结构。
文本提示词如何参与生成
当你输入“赛博朋克风格的城市夜景,霓虹灯,雨天街道”,模型不会像搜索引擎一样去找一张现成图片。
它会把文本变成数字表示,也就是模型能处理的向量。这个向量会参与去噪过程,告诉模型应该朝什么方向修正画面。
所以提示词越清晰,模型越容易形成稳定目标。
常见的提示词信息包括:
- 主体:人、物体、场景。
- 风格:写实、插画、摄影、像素风。
- 构图:近景、俯视、对称、留白。
- 光线:自然光、霓虹、逆光、柔光。
- 限制:不要文字、不要多余手指、不要复杂背景。
这些信息不是魔法咒语,而是在给去噪过程提供方向。
采样步数是什么意思
很多图像工具里都有 steps 或 inference steps。它大致表示模型进行多少轮去噪。
步数太少,图像可能还没来得及稳定;步数更多,细节通常更充分。但步数不是越高越好,过高也可能带来时间成本、风格僵硬或细节异常。
对用户来说,理解成这样就够了:
采样步数是模型从噪声走向图像的迭代次数。
如果你在调图,不要只改提示词。步数、尺寸、模型、参考图和随机种子都会影响结果。
随机种子为什么重要
同一个提示词,每次生成的图可能不一样,因为起始噪声不同。
随机种子可以理解成“这次从哪一团噪声开始”。当你固定随机种子,再调整提示词或参数,就更容易观察变化来自哪里。
这也是很多设计师做图像实验时会固定 seed 的原因:它能让对比更可控。
模型不是在查图库
一个常见误解是:Stable Diffusion 是从图库里拼图。
更准确地说,它在训练阶段看过大量图文样本,学习文本、视觉结构和图像分布之间的关系。生成时,它不是直接取回某张图片,而是用训练得到的参数来预测每一步如何去噪。
这并不意味着版权、风格和素材边界可以忽略。恰恰相反,公开发布 AIGC 内容时,更需要注意素材来源、人物肖像、商标、平台规则和商业使用范围。
为什么“模型风格”影响很大
不同模型、LoRA 或风格权重,本质上改变的是模型对图像分布的偏好。
同样一句提示词,在写实模型里可能更像摄影,在二次元模型里可能更像插画,在产品摄影模型里可能更重视材质和布光。
所以做 AIGC 工作流时,提示词只是其中一环。更完整的链路通常包括:
- 选择合适模型。
- 写清楚主体和用途。
- 设置尺寸、步数、风格权重。
- 多轮生成并筛选。
- 人工修图、排版和合规检查。
入行之路的使用建议
如果你是产品经理、内容运营或设计协作者,不必一开始就深入公式。先掌握这几个判断点:
- 图像生成是逐步去噪,不是直接画图。
- 文本提示词负责给去噪方向。
- 随机种子决定起点,步数决定迭代过程。
- 模型选择决定风格和能力边界。
- 发布前必须做人工筛选和使用边界检查。
理解这些,你就不会只停留在“换几个关键词试试”的层面,而能把 AIGC 当成一个可调、可复盘的工作流。
