Ti è mai capitato di fissare un’immagine generata dall’IA e pensare:
“Quante mani ha davvero questa ragazza anime?”
A me sì — e giuro che per un attimo ho pensato di stare impazzendo. Nell’immagine c’erano chiaramente tre mani… ma il modello continuava a insistere che fossero soltanto due.
Gli ho chiesto di rimuovere la mano extra cinque volte.
Non è cambiato nulla.
E la parte più divertente? Non ha nemmeno detto “ops”. Si è solo impuntato ancora di più.
È un esempio perfetto di come si manifestano le allucinazioni dell’IA nella generazione di immagini — e del perché “basta chiederlo di nuovo” non funzioni sempre.
Che aspetto ha una “allucinazione” nelle immagini
Nel testo, un’allucinazione è un fatto inventato.
Nelle immagini, invece, è anatomia sbagliata e dettagli inventati che al primo sguardo sembrano plausibili.
I casi più comuni:
- dita extra / arti extra
- articolazioni impossibili
- oggetti duplicati
- accessori incoerenti (gli orecchini cambiano, i loghi si deformano)
- ombre strane che non corrispondono alla fonte di luce
Il modello non sa di stare sbagliando — sta semplicemente prevedendo pixel che assomigliano ai pattern che ha imparato. Se “ragazza anime + posa + inquadratura” è spesso associato a certe forme, può “completare” l’immagine in un modo che sembra credibile ma che, fisicamente, non regge.
Perché il modello non lo corregge, anche quando glielo fai notare
È questa la parte che sorprende molte persone: anche se descrivi l’errore in modo perfetto, il modello potrebbe comunque non riuscire a correggerlo.
Ci sono diversi motivi:
- Non riesce a “contare” o verificare i dettagli in modo affidabile come farebbe una persona.
Non sta eseguendo un vero controllo; ogni volta produce una nuova ipotesi. - La tua richiesta entra in conflitto con la composizione.
Togliere una mano può rompere la posa, la silhouette o l’equilibrio che il modello “preferisce”, quindi continua a ricostruire la stessa struttura. - È progettato per sembrare molto sicuro di sé.
Molti modelli rispondono con grande sicurezza. Così, invece di dire “hai ragione, c’è una terza mano”, ti rispondono “le mani sono due”, anche quando i tuoi occhi vedono altro. - Le modifiche non sono sempre modifiche vere.
A seconda dello strumento, “edit” può comportarsi più come “rigenera un’immagine simile”, e quindi lo stesso errore continua a tornare.
Conclusione pratica per chi costruisce prodotti
Se stai creando un prodotto che usa la generazione di immagini, non puoi dare per scontato che:
- un prompt = un risultato corretto
- il modello seguirà una richiesta di correzione
- il modello riconoscerà persino l’errore
In altre parole: tratta l’output delle immagini come probabilistico, non deterministico.
Se vuoi aumentare le probabilità di successo, di solito ti servono tattiche a livello di prodotto:
- vincoli forti (riferimenti di posa, character sheet coerenti)
- workflow reali di inpainting / masking
- generazioni multiple + selezione
- controlli automatici (anche semplici euristiche per mani e dita possono aiutare)
Eppure… adoro questi momenti
Per quanto siano frustranti, hanno anche qualcosa di esilarante.
L’IA può creare immagini splendide — e poi inventarsi con nonchalance una terza mano, insistendo che sei tu a immaginarla.
Ed è esattamente questo tipo di caos da “IA nel mondo reale” che mi piace condividere mentre costruisco.
Se ti incuriosisce, sto documentando altre stranezze del genere nel mio progetto AI Anime Chatbot — le parti divertenti e quelle frustranti.