¿Alguna vez te ha pasado que miras una imagen generada por IA y piensas:
«¿Cuántas manos tiene esta chica de anime?»
A mí sí — y juro que por un momento pensé que me estaba volviendo loco. En la imagen había claramente tres manos… pero el modelo seguía insistiendo en que solo había dos.
Le pedí que quitara la mano extra cinco veces.
Ni se inmutó.
¿Y lo más gracioso? Ni siquiera dijo «ups». Se aferró todavía más a su respuesta.
Ese es un ejemplo perfecto de cómo aparecen las alucinaciones de la IA en la generación de imágenes — y de por qué “solo vuelve a pedírselo” no siempre funciona.
Qué aspecto tiene una “alucinación” en imágenes
En texto, una alucinación es un dato inventado.
En imágenes, es anatomía falsa y detalles inventados que a primera vista parecen reales.
Algunos casos comunes:
- dedos extra / extremidades extra
- articulaciones imposibles
- objetos duplicados
- accesorios inconsistentes (los pendientes cambian, los logos se deforman)
- sombras raras que no coinciden con la fuente de luz
El modelo no sabe que está mal — solo predice píxeles que encajan con patrones que aprendió. Si “anime girl + pose + framing” suele correlacionarse con ciertas formas, puede “completar” la imagen de una forma que parece plausible, pero no es físicamente coherente.
Por qué el modelo no lo corrige (aunque se lo señales)
Esta parte sorprende a mucha gente: incluso si describes el error perfectamente, el modelo puede seguir sin corregirlo.
Hay varias razones:
- No puede “contar” ni verificar detalles de forma fiable como lo haría una persona.
No está haciendo una auditoría real; está generando una nueva conjetura cada vez. - Tu petición choca con la composición.
Quitar una mano puede romper la pose, la silueta o el equilibrio que al modelo “le gusta”, así que vuelve a reconstruir la misma estructura. - Está diseñado para sonar demasiado seguro.
Muchos modelos responden con muchísima confianza. Así que, en vez de decir “tienes razón, hay una tercera mano”, te dicen “hay dos manos”, incluso cuando tus ojos ven otra cosa. - Editar no siempre significa editar de verdad.
Según la herramienta, “editar” puede comportarse más como “regenerar una imagen parecida”, lo que hace que el mismo error reaparezca una y otra vez.
Conclusión práctica para quienes construyen productos
Si estás creando un producto que usa generación de imágenes, no puedes asumir que:
- un prompt = un resultado correcto
- el modelo seguirá una petición de corrección
- el modelo siquiera reconocerá el error
En otras palabras: trata la salida de imagen como probabilística, no como determinista.
Si quieres tasas de éxito más altas, normalmente necesitas tácticas a nivel de producto:
- restricciones fuertes (referencias de pose, hojas de personaje consistentes)
- flujos reales de inpainting / masking
- múltiples generaciones + selección
- comprobaciones automáticas (incluso heurísticas básicas para manos y dedos ayudan)
Aun así… me encantan estos momentos
Por molesto que sea, también tiene algo de hilarante.
La IA puede crear arte increíble y, acto seguido, inventarse una tercera mano con toda tranquilidad y asegurarte que te la estás imaginando.
Y ese es exactamente el tipo de caos de la “IA del mundo real” que me gusta compartir mientras construyo.
Si te da curiosidad, estoy documentando más rarezas como esta en mi proyecto AI Anime Chatbot — las partes divertidas y las frustrantes.