Когда ИИ дорисовывает лишнюю руку и уверяет, что всё нормально

Бывало ли у вас такое, что вы смотрите на картинку, сгенерированную ИИ, и думаете:

«Сколько рук у этой аниме-девушки?»

У меня — да. И, честно, в какой-то момент мне показалось, что я схожу с ума. На изображении были совершенно очевидно три руки… но модель продолжала настаивать, что их только две.

Я пять раз просил убрать лишнюю руку.
Никакого эффекта.
И что самое смешное? Она даже не сказала «упс». Наоборот, только ещё сильнее стояла на своём.

Это отличный пример того, как проявляются галлюцинации ИИ в генерации изображений — и почему стратегия «просто попроси ещё раз» работает далеко не всегда.

Как выглядят «галлюцинации» в изображениях

В тексте галлюцинации — это выдуманные факты.
В изображениях — это неправильная анатомия и придуманные детали, которые на первый взгляд кажутся вполне убедительными.

Типичные примеры:

лишние пальцы / лишние конечности
невозможные суставы
дублирующиеся объекты
несогласованные аксессуары (серьги меняются, логотипы «плывут»)
странные тени, которые не совпадают с источником света

Модель не знает, что ошибается — она просто предсказывает пиксели, которые похожи на уже изученные ей паттерны. Если «anime girl + pose + framing» часто связано с определёнными формами, модель может «достроить» картинку так, что она будет выглядеть правдоподобно, но физически окажется несостоятельной.

Почему модель не исправляет ошибку, даже если вы на неё указали

Вот что многих удивляет: даже если вы идеально описали проблему, модель всё равно может не справиться с исправлением.

Причин несколько:

Она не умеет надёжно «считать» или проверять детали так, как это делает человек.
Никакого настоящего этапа проверки там нет — каждый раз она просто выдаёт новую догадку.
Ваш запрос конфликтует с композицией.
Если убрать одну руку, может сломаться поза, силуэт или тот баланс, который модель «предпочитает», поэтому она снова и снова пересобирает ту же структуру.
Она по дизайну звучит слишком уверенно.
Многие модели отвечают с высокой уверенностью. Поэтому вместо «да, вы правы, тут есть третья рука» вы получаете «рук две», даже когда глазами видите обратное.
Редактирование не всегда является настоящим редактированием.
В зависимости от инструмента «edit» может работать скорее как «перегенерируй похожую картинку», а значит одна и та же ошибка будет возвращаться снова и снова.

Практический вывод для тех, кто строит продукты

Если вы делаете продукт с генерацией изображений, нельзя исходить из того, что:

один промпт = один правильный результат
модель выполнит запрос на исправление
модель вообще признает ошибку

Иными словами: воспринимайте вывод изображения как вероятностный, а не детерминированный.

Если вы хотите повысить шанс на хороший результат, обычно нужны продуктовые тактики:

жёсткие ограничения (референсы поз, согласованные character sheets)
настоящие inpainting / masking workflows
несколько генераций + отбор
автоматические проверки (даже простые эвристики для рук и пальцев уже помогают)

И всё же… я обожаю такие моменты

Как бы это ни раздражало, в этом есть и что-то очень смешное.
ИИ может создать потрясающую картинку — а потом совершенно буднично дорисовать третью руку и ещё уверять вас, что вы сами это придумали.

Именно таким «реальным ИИ-хаосом» мне и нравится делиться в процессе разработки.

Если вам интересно, я документирую ещё больше подобных странностей в своём проекте AI Anime Chatbot — и забавные моменты, и раздражающие.