AI生成の画像を見つめながら、こんなことを思ったことはありませんか。
「このアニメの女の子、手は何本あるんだ?」
私はありました。しかも本気で、自分の目がおかしくなったのかと思いました。画像には どう見ても手が3本 あるのに、モデルは「手は2本です」と言い張り続けたんです。
余計な手を消してほしいと 5回 頼みました。
でも、まったく直りませんでした。
しかも一番おもしろいのは、「ごめん」とも言わないこと。むしろ自信満々のままでした。
これは、AIのハルシネーション が画像生成でどう現れるのかを示す、かなりわかりやすい例です。だからこそ、「もう一回頼めば直る」で済まないことも多いのです。
画像における「ハルシネーション」とは何か
テキストにおけるハルシネーションは、もっともらしい嘘の情報です。
画像におけるハルシネーションは、おかしな人体構造 や 勝手に足されたディテール です。しかも、最初の一瞬ではそれらしく見えてしまいます。
よくある例:
- 指が多い / 手足が増えている
- ありえない関節の曲がり方
- 物が重複している
- アクセサリーの一貫性がない(イヤリングが変わる、ロゴが崩れる)
- 光源と合わない不自然な影
モデルは自分が間違っていると 理解している わけではありません。学習したパターンに合いそうなピクセルを予測しているだけです。たとえば「アニメの女の子 + ポーズ + 構図」が特定の形と結びついていると、見た目はそれっぽいけれど物理的にはおかしい形で画像を「補完」してしまうことがあります。
指摘してもモデルが直してくれない理由
ここが意外に感じる人は多いはずです。エラーをかなり正確に説明しても、モデルは直せないことがあります。
理由はいくつかあります。
- 人間のように細部を正確に「数える」ことも検証することもできない。
きちんとチェック工程を通しているわけではなく、そのたびに新しい推測を出しているだけです。 - 修正の指示が構図とぶつかることがある。
手を1本消すと、ポーズやシルエット、あるいはモデルが「好む」バランスが崩れてしまうため、同じ構造をまた作り直してしまいます。 - 設計上、自信満々に答えやすい。
多くのモデルは強い確信を持ったように返答します。そのため「その通り、3本目の手があります」ではなく、「手は2本です」と返してくることがあります。こちらの目には明らかでも、です。 - 編集が本当の意味での編集とは限らない。
ツールによっては「編集」が「似た画像を再生成する」に近い挙動になるので、同じミスが何度も戻ってくることがあります。
プロダクトを作る側としての実践的な教訓
画像生成を使うプロダクトを作るなら、次の前提は危険です。
- 1つのプロンプト = 1つの正しい結果
- モデルは修正依頼にきちんと従う
- モデルはそもそもミスを認める
つまり、画像出力は決定的なものではなく、確率的なものとして扱うべき です。
成功率を上げたいなら、たいていはプロダクト側の工夫が必要になります。
- 強い制約(ポーズ参照、一貫したキャラクターシート)
- 本物の inpainting / masking ワークフロー
- 複数生成して選ぶ運用
- 自動チェック(手や指向けの簡単なヒューリスティックでも役立つ)
それでも…私はこういう瞬間が好きです
腹は立つのに、どこか笑えてしまうんですよね。
AIは見事なアートを作れるのに、さらっと3本目の手を生やしておいて、「見間違いでは?」みたいな顔をしてくるわけです。
そして、まさにこういう「現実のAIっぽさ」がある混沌を、私は作りながら共有するのが好きなんです。
興味があれば、こうした癖っぽい挙動を AI Anime Chatbot プロジェクトでも記録しています。おもしろい部分も、そして しんどい部分も含めて。