绝大多数"AI 图像生成入门指南"看起来像一本术语词典。这一篇不会。这一篇假设你根本不关心技术——你只是想给表妹的婚礼做张海报、给 Shopify 店面做个 banner、给博客配张插图,听说 AI 现在能干这事。
下面是从"我没碰过这玩意"到"我下载文件夹里有一张能用的图"的最短路径。
AI 图像生成到底是什么(30 秒版)
你打一段描述("一家温馨的咖啡馆内景、午后温暖的光、窗台上有植物"),训练好的模型生成一张符合描述的图。就这样。没有模板供你选,没有图库供你搜。这张图在你打提示词之前并不存在。
技术上叫扩散(diffusion)——模型从随机噪声出发,一步步把噪声"打磨"成你想要的场景——但你不需要懂这个就能用得很好。
第一个提示词,三块拼起来
几乎所有新手能成功的提示词都长这样:
[主体] · [风格或媒介] · [情绪、光线或细节]
举例:
- 一只金毛幼犬 · 柔和的水彩插画 · 明亮的晨光、希望的氛围
- 石桌上的一杯抹茶拿铁 · 产品摄影 · 浅景深、中性背景
- 黄昏时的未来都市天际线 · 动漫风格 · 街上下着雨、霓虹反射
主体—风格—情绪,一句话就能拿到 80% 你想要的图。等熟了再叠加更多细节(机位、配色、具体元素)。新手别一开始就堆。
第一天大家都会犯的三个错
在 imagesv2 上看过太多人第一次用了。这三种情况反复出现:
1. 想用一个提示词描述一切。 新手喜欢写 80 个词的提示词,把所有细节都塞进去,指望 AI 完美还原。结果反而是:提示词越长,模型越不精准。先写一句话生成。然后用编辑(点一块区域说改成什么)而不是改提示词重写。
2. 描述太笼统还指望奇迹。 "一只狗"给你一只普通狗。"一只乱糟糟的黑色杂毛狗,在阳光草坪上腾空接住一颗黄色网球"才给你想象中的画面。具体性是全部的游戏。
3. 生成一次不行就放弃。 AI 图像生成是非确定性的。同样的提示词每次都不一样。第一次不对就再生成,第二次第三次往往就对了。或者用编辑——保留你喜欢的部分,改你不喜欢的。
怎么处理图里的文字(以前是难题,现在不是了)
如果你想在图里有文字——海报标题、招牌、Logo——把准确的文字用引号括起来:
木质咖啡馆招牌挂在门上,"Open from 7 AM" 复古手绘字体,柔和晨光
两条实用规则:
- 保持简短。 4–12 个词是甜点区间。长段落仍然容易糊。
- 指定位置。 "在顶部"、"居中"、"右下角"。
GPT Image 2(imagesv2 背后用的就是它)也能处理多语言——中文、日文、韩文、阿拉伯文、德文、法文。你可以让它在中国新年贺卡上写"新年快乐",在樱花海报上写"春の桜",结果会正确渲染。
选对画布尺寸
三种尺寸覆盖几乎所有场景:
- 正方形(1024×1024)——Instagram 帖子、头像、播客缩略图。
- 竖版(1024×1536)——小红书、手机壁纸、Story、竖海报。
- 横版(1536×1024)——博客头图、YouTube 缩略图、PPT 主视觉、广告 banner。
按图的最终用途选。别生成正方形再裁——你会丢掉你想要的部分。
标准 vs 高质量
从标准开始。它快、便宜,已经够你判断提示词是不是走对方向了。找到一张你喜欢的,再用高质量重新生成做最终成品。探索阶段别烧 HQ 积分。
5 分钟第一次实践
下面是现在就可以做的 5 分钟练习:
- 打开 imagesv2 playground。
- 写一个你真的需要的提示词——博客头图、缩略图、海报都行。
- 用 主体 · 风格 · 情绪 公式。一句话。
- 标准质量、1024×1024(或对应你需要的比例)生成。
- 不对的地方就编辑那部分,不要改整段提示词。
- 拿到你喜欢的草稿,高质量再生成一次然后下载。
走完这个循环,你就已经会用了。剩下的全是品味和练习。
准备深入
继续读这些:
- GPT Image 2 怎么用——分步指南——更深入地了解 imagesv2 背后的模型。
- 生成图像中的文字——海报、信息图、多语言设计的实用模式。
- 透明背景 PNG——做贴纸、Logo、产品抠图。
预算紧?买 $14.90 一次性包——1,000 积分,不订阅,永不过期。够你做几百张草稿和几十张 HQ 成品,足以判断 AI 图像生成到底要不要进你的工作流。
