AIが余計な手を足しておきながら「問題ない」と言い張るとき

AI生成の画像を見つめながら、こんなことを思ったことはありませんか。

「このアニメの女の子、手は何本あるんだ？」

私はありました。しかも本気で、自分の目がおかしくなったのかと思いました。画像には どう見ても手が3本 あるのに、モデルは「手は2本です」と言い張り続けたんです。

余計な手を消してほしいと 5回頼みました。
でも、まったく直りませんでした。
しかも一番おもしろいのは、「ごめん」とも言わないこと。むしろ自信満々のままでした。

これは、AIのハルシネーション が画像生成でどう現れるのかを示す、かなりわかりやすい例です。だからこそ、「もう一回頼めば直る」で済まないことも多いのです。

画像における「ハルシネーション」とは何か

テキストにおけるハルシネーションは、もっともらしい嘘の情報です。
画像におけるハルシネーションは、おかしな人体構造 や 勝手に足されたディテール です。しかも、最初の一瞬ではそれらしく見えてしまいます。

よくある例:

モデルは自分が間違っていると 理解している わけではありません。学習したパターンに合いそうなピクセルを予測しているだけです。たとえば「アニメの女の子 + ポーズ + 構図」が特定の形と結びついていると、見た目はそれっぽいけれど物理的にはおかしい形で画像を「補完」してしまうことがあります。

ここが意外に感じる人は多いはずです。エラーをかなり正確に説明しても、モデルは直せないことがあります。

理由はいくつかあります。

人間のように細部を正確に「数える」ことも検証することもできない。
きちんとチェック工程を通しているわけではなく、そのたびに新しい推測を出しているだけです。
修正の指示が構図とぶつかることがある。
手を1本消すと、ポーズやシルエット、あるいはモデルが「好む」バランスが崩れてしまうため、同じ構造をまた作り直してしまいます。
設計上、自信満々に答えやすい。
多くのモデルは強い確信を持ったように返答します。そのため「その通り、3本目の手があります」ではなく、「手は2本です」と返してくることがあります。こちらの目には明らかでも、です。
編集が本当の意味での編集とは限らない。
ツールによっては「編集」が「似た画像を再生成する」に近い挙動になるので、同じミスが何度も戻ってくることがあります。

画像生成を使うプロダクトを作るなら、次の前提は危険です。

つまり、画像出力は決定的なものではなく、確率的なものとして扱うべき です。

成功率を上げたいなら、たいていはプロダクト側の工夫が必要になります。

腹は立つのに、どこか笑えてしまうんですよね。
AIは見事なアートを作れるのに、さらっと3本目の手を生やしておいて、「見間違いでは？」みたいな顔をしてくるわけです。

そして、まさにこういう「現実のAIっぽさ」がある混沌を、私は作りながら共有するのが好きなんです。

興味があれば、こうした癖っぽい挙動を AI Anime Chatbot プロジェクトでも記録しています。おもしろい部分も、そして しんどい部分も含めて。