Já teve aquele momento de olhar para uma imagem gerada por IA e pensar:
“Quantas mãos essa garota de anime tem, afinal?”
Eu tive — e juro que por um instante achei que estava ficando maluco. Havia claramente três mãos na imagem… mas o modelo continuava insistindo que eram só duas.
Eu pedi cinco vezes para ele remover a mão extra.
Não adiantou nada.
E a parte mais engraçada? Nem sequer disse “ops”. Só ficou ainda mais convicto da resposta errada.
Esse é um exemplo perfeito de como as alucinações da IA aparecem na geração de imagens — e de por que “é só pedir de novo” nem sempre funciona.
Como é uma “alucinação” em imagens
No texto, alucinação é um fato inventado.
Na imagem, é anatomia errada e detalhes inventados que, à primeira vista, parecem plausíveis.
Exemplos comuns:
- dedos extras / membros extras
- articulações impossíveis
- objetos duplicados
- acessórios inconsistentes (brincos mudam, logos se deformam)
- sombras estranhas que não combinam com a fonte de luz
O modelo não sabe que está errado — ele só prevê pixels que combinam com padrões que aprendeu. Se “anime girl + pose + framing” costuma aparecer junto com certas formas, ele pode “completar” a imagem de um jeito que parece convincente, mas não faz sentido fisicamente.
Por que o modelo não corrige isso, mesmo quando você aponta o erro
Essa é a parte que surpreende muita gente: mesmo que você descreva o erro com perfeição, o modelo ainda pode falhar ao corrigi-lo.
Existem alguns motivos:
- Ele não consegue “contar” nem verificar detalhes com confiabilidade como um humano faria.
Não existe uma revisão real ali; ele apenas gera um novo palpite a cada tentativa. - Seu pedido entra em conflito com a composição.
Remover uma mão pode quebrar a pose, a silhueta ou o equilíbrio de que o modelo “gosta”, então ele continua reconstruindo a mesma estrutura. - Ele foi projetado para soar confiante demais.
Muitos modelos respondem com alta confiança. Então, em vez de dizer “você tem razão, existe uma terceira mão”, ele diz “há duas mãos”, mesmo quando seus olhos veem outra coisa. - Editar nem sempre significa editar de verdade.
Dependendo da ferramenta, “editar” pode funcionar mais como “gerar de novo uma imagem parecida”, o que faz o mesmo erro voltar repetidamente.
Lição prática para quem está construindo produtos
Se você está criando um produto que usa geração de imagens, não pode partir do princípio de que:
- um prompt = um resultado correto
- o modelo vai seguir um pedido de correção
- o modelo sequer vai reconhecer o erro
Em outras palavras: trate a saída da imagem como probabilística, não determinística.
Se você quer taxas de sucesso mais altas, normalmente precisa de táticas no nível do produto:
- restrições fortes (referências de pose, character sheets consistentes)
- workflows reais de inpainting / masking
- múltiplas gerações + seleção
- checagens automatizadas (até heurísticas básicas para mãos e dedos ajudam)
Ainda assim… eu adoro esses momentos
Por mais irritante que seja, também é meio hilário.
A IA consegue criar arte impressionante — e, logo depois, inventa casualmente uma terceira mão e ainda insiste que o problema está nos seus olhos.
E esse é exatamente o tipo de caos de “IA no mundo real” que eu gosto de compartilhar enquanto construo.
Se você ficou curioso, estou documentando mais dessas peculiaridades no meu projeto AI Anime Chatbot — as partes divertidas e as frustrantes.