Quand l’IA ajoute une main en trop et jure que tout est normal

Ça vous est déjà arrivé de fixer une image générée par IA en vous disant :

« Cette fille d’anime a combien de mains, au juste ? »

Moi oui — et je vous jure que j’ai cru devenir fou. Il y avait clairement trois mains sur l’image… mais le modèle continuait d’affirmer qu’il n’y en avait que deux.

Je lui ai demandé de retirer la main en trop cinq fois.
Aucun changement.
Et le plus drôle ? Il n’a même pas dit « oups ». Il s’est contenté d’insister encore plus.

C’est un exemple parfait de la manière dont les hallucinations de l’IA se manifestent en génération d’images — et de la raison pour laquelle « redemande-lui simplement » ne marche pas toujours.

À quoi ressemble une « hallucination » dans une image

Dans le texte, une hallucination, ce sont des faits inventés.
Dans l’image, ce sont une anatomie fausse et des détails inventés qui paraissent crédibles au premier regard.

Exemples fréquents :

des doigts en trop / des membres supplémentaires
des articulations impossibles
des objets dupliqués
des accessoires incohérents (les boucles d’oreilles changent, les logos se déforment)
des ombres bizarres qui ne correspondent pas à la source lumineuse

Le modèle ne sait pas qu’il se trompe — il prédit simplement des pixels qui ressemblent aux motifs qu’il a appris. Si « anime girl + pose + framing » est souvent associé à certaines formes, il peut « compléter » l’image d’une manière plausible en apparence, mais incohérente physiquement.

Pourquoi le modèle ne corrige pas l’erreur (même quand on la lui montre)

C’est la partie qui surprend beaucoup de monde : même si vous décrivez l’erreur parfaitement, le modèle peut quand même échouer à la corriger.

Quelques raisons :

Il ne sait pas “compter” ou vérifier des détails de façon fiable comme le ferait un humain.
Il ne passe pas réellement l’image en revue ; il génère une nouvelle supposition à chaque tentative.
Votre demande se heurte à la composition.
Retirer une main peut casser la pose, la silhouette ou l’équilibre que le modèle « préfère », donc il reconstruit encore et encore la même structure.
Il est conçu pour paraître très sûr de lui.
Beaucoup de modèles répondent avec une grande assurance. Au lieu de dire « vous avez raison, il y a une troisième main », ils disent « il y a deux mains », même quand vos yeux voient l’inverse.
Un edit n’est pas toujours une vraie correction.
Selon l’outil, « éditer » se comporte davantage comme « régénérer une image similaire », ce qui permet à la même erreur de revenir encore et encore.

Leçon pratique pour celles et ceux qui construisent des produits

Si vous créez un produit qui utilise la génération d’images, vous ne pouvez pas partir du principe que :

un prompt = un résultat correct
le modèle suivra une demande de correction
le modèle reconnaîtra même l’erreur

Autrement dit : traitez la sortie image comme probabiliste, pas déterministe.

Si vous voulez de meilleurs taux de réussite, il faut en général des tactiques au niveau produit :

des contraintes fortes (références de pose, fiches personnages cohérentes)
de vrais workflows d’inpainting / masking
plusieurs générations + une sélection manuelle
des contrôles automatisés (même des heuristiques basiques pour les mains et les doigts peuvent aider)

Et malgré tout… j’adore ces moments

Aussi agaçant que ce soit, c’est aussi franchement drôle.
L’IA peut produire une image magnifique — puis inventer tranquillement une troisième main en vous expliquant que c’est vous qui l’imaginez.

Et c’est exactement ce genre de chaos « IA du monde réel » que j’aime partager pendant que je construis.

Si ça vous intrigue, je documente d’autres bizarreries de ce genre dans mon projet AI Anime Chatbot — les moments amusants et les moments frustrants.