当 AI 多画出一只手，还一本正经地说没问题时

你有没有过这样的时刻：盯着一张 AI 生成的图片，然后心里冒出一句：

“这个动漫女孩到底有几只手？”

我有过——而且我发誓，那一刻我真的怀疑是不是自己眼花了。图里 明明有三只手……可模型却一直坚持说，只有两只。

我让它把多出来的那只手删掉，足足说了五次。
它一点都没改。
更好笑的是？它连一句“哎呀”都没有，反而对自己的错误答案更笃定了。

这正是 AI 幻觉 在图像生成里如何出现的一个典型例子——也说明了为什么“那就再说一遍”并不总是有用。

图像里的“幻觉”是什么样的

在文本里，幻觉通常是编造出来的事实。
而在图像里，幻觉往往表现为 错误的人体结构 和 凭空捏造的细节，而且第一眼看上去还挺像那么回事。

常见情况包括：

模型并不知道自己错了——它只是根据学到的模式去预测看起来合理的像素。如果 “anime girl + pose + framing” 经常和某些形状一起出现，它就可能用一种乍看合理、但实际上并不符合物理逻辑的方式把画面“补完”。

这一点最让人意外：就算你把问题描述得非常准确，模型也还是可能改不对。

原因通常有几个：

它没法像人一样可靠地“数清楚”或核对细节。
它并没有真的进行一次严谨的检查流程；它只是每次重新猜一次。
你的要求和画面构图是冲突的。
删掉一只手，可能会破坏它“喜欢”的姿势、轮廓或整体平衡，于是它又把同样的结构重新生成出来。
它天生就很容易表现得过于自信。
很多模型回答时都显得特别笃定。所以你本来期待它说“对，你说得对，这里确实有第三只手”，结果它却一本正经地说“有两只手”。哪怕你的眼睛明明看见的是别的。
编辑并不总是真正意义上的编辑。
具体取决于工具，“edit” 很多时候更像是“重新生成一张相似的图”，这也就意味着同样的错误会反复出现。

如果你在做一个使用图像生成的产品，就不能默认：

换句话说：请把图像输出当成概率性的，而不是确定性的。

如果你想把成功率拉高，通常就得在产品层面加一些策略：

它确实很烦，但又有点好笑。
AI 可以画出非常惊艳的作品——然后若无其事地多给你加一只手，还坚持说是你自己看错了。

而这正是我喜欢一边做产品、一边分享的那种“真实世界里的 AI 混乱”。

如果你感兴趣，我还在我的 AI Anime Chatbot 项目里持续记录更多这种离谱又真实的小毛病——有好玩的部分，也有让人抓狂的部分。