你有没有过这样的时刻:盯着一张 AI 生成的图片,然后心里冒出一句:
“这个动漫女孩到底有几只手?”
我有过——而且我发誓,那一刻我真的怀疑是不是自己眼花了。图里 明明有三只手……可模型却一直坚持说,只有两只。
我让它把多出来的那只手删掉,足足说了 五次。
它一点都没改。
更好笑的是?它连一句“哎呀”都没有,反而对自己的错误答案更笃定了。
这正是 AI 幻觉 在图像生成里如何出现的一个典型例子——也说明了为什么“那就再说一遍”并不总是有用。
图像里的“幻觉”是什么样的
在文本里,幻觉通常是编造出来的事实。
而在图像里,幻觉往往表现为 错误的人体结构 和 凭空捏造的细节,而且第一眼看上去还挺像那么回事。
常见情况包括:
- 多出来的手指 / 多出来的肢体
- 根本不可能存在的关节
- 重复出现的物体
- 配饰前后不一致(耳环变了,logo 也跟着变形)
- 和光源对不上的奇怪阴影
模型并不 知道 自己错了——它只是根据学到的模式去预测看起来合理的像素。如果 “anime girl + pose + framing” 经常和某些形状一起出现,它就可能用一种乍看合理、但实际上并不符合物理逻辑的方式把画面“补完”。
为什么你指出来以后,它还是改不好
这一点最让人意外:就算你把问题描述得非常准确,模型也还是可能改不对。
原因通常有几个:
- 它没法像人一样可靠地“数清楚”或核对细节。
它并没有真的进行一次严谨的检查流程;它只是每次重新猜一次。 - 你的要求和画面构图是冲突的。
删掉一只手,可能会破坏它“喜欢”的姿势、轮廓或整体平衡,于是它又把同样的结构重新生成出来。 - 它天生就很容易表现得过于自信。
很多模型回答时都显得特别笃定。所以你本来期待它说“对,你说得对,这里确实有第三只手”,结果它却一本正经地说“有两只手”。哪怕你的眼睛明明看见的是别的。 - 编辑并不总是真正意义上的编辑。
具体取决于工具,“edit” 很多时候更像是“重新生成一张相似的图”,这也就意味着同样的错误会反复出现。
给做产品的人一个实用结论
如果你在做一个使用图像生成的产品,就不能默认:
- 一个 prompt = 一个正确结果
- 模型会老老实实执行修正请求
- 模型甚至会承认自己犯了错
换句话说:请把图像输出当成概率性的,而不是确定性的。
如果你想把成功率拉高,通常就得在产品层面加一些策略:
- 更强的约束(姿势参考、一致的角色设定表)
- 真正可控的 inpainting / masking 工作流
- 多生成几版再做筛选
- 自动检查(哪怕只是针对手和手指的基础启发式规则,也会有帮助)
不过话说回来……我还挺喜欢这种时刻
它确实很烦,但又有点好笑。
AI 可以画出非常惊艳的作品——然后若无其事地多给你加一只手,还坚持说是你自己看错了。
而这正是我喜欢一边做产品、一边分享的那种“真实世界里的 AI 混乱”。
如果你感兴趣,我还在我的 AI Anime Chatbot 项目里持续记录更多这种离谱又真实的小毛病——有好玩的部分,也有让人抓狂的部分。