Zurück zum Blog
19. Januar 2026Sergei Solod3 Min. Lesezeit

Wenn KI eine zusätzliche Hand dazuerfindet und behauptet, alles sei normal

Bildmodelle können mit erstaunlicher Sicherheit falsch liegen, und selbst Korrekturprompts scheitern oft auf verblüffend hartnäckige Weise.

KIBildgenerierungHalluzinationenProduktentwicklungBuild in PublicChatbots

Hattest du schon einmal diesen Moment, in dem du ein KI-generiertes Bild anstarrst und denkst:

„Wie viele Hände hat dieses Anime-Mädchen eigentlich?“

Mir ist das passiert — und ich schwöre, ich dachte kurz, ich werde verrückt. Auf dem Bild waren ganz eindeutig drei Hände… aber das Modell bestand hartnäckig darauf, dass es nur zwei seien.

Ich habe es fünfmal darum gebeten, die zusätzliche Hand zu entfernen.
Keine Reaktion.
Und das Lustigste daran? Es sagte nicht einmal „ups“. Es legte sich nur noch mehr fest.

Das ist ein perfektes Beispiel dafür, wie KI-Halluzinationen bei der Bildgenerierung aussehen — und warum „frag einfach noch mal“ eben nicht immer funktioniert.

Wie „Halluzinationen“ bei Bildern aussehen

Bei Text sind Halluzinationen erfundene Fakten.
Bei Bildern sind es falsche Anatomie und hinzuerfundene Details, die auf den ersten Blick plausibel wirken.

Typische Beispiele:

  • zusätzliche Finger / zusätzliche Gliedmaßen
  • unmögliche Gelenke
  • doppelte Objekte
  • inkonsistente Accessoires (Ohrringe wechseln, Logos verformen sich)
  • seltsame Schatten, die nicht zur Lichtquelle passen

Das Modell weiß nicht, dass es falsch liegt — es sagt einfach Pixel voraus, die zu Mustern passen, die es gelernt hat. Wenn „Anime-Mädchen + Pose + Bildausschnitt“ häufig mit bestimmten Formen zusammen auftritt, „vervollständigt“ es das Bild womöglich auf eine Weise, die glaubwürdig aussieht, aber physikalisch keinen Sinn ergibt.

Warum das Modell es nicht korrigiert — selbst wenn du es benennst

Genau dieser Teil überrascht viele: Selbst wenn du den Fehler perfekt beschreibst, kann das Modell trotzdem daran scheitern, ihn zu beheben.

Dafür gibt es ein paar Gründe:

  1. Es kann Details nicht zuverlässig „zählen“ oder prüfen wie ein Mensch.
    Es macht keinen echten Prüf- oder Audit-Durchlauf, sondern erzeugt jedes Mal eine neue Vermutung.
  2. Deine Anweisung arbeitet gegen die Komposition.
    Wenn eine Hand entfernt wird, kann das Pose, Silhouette oder das Gleichgewicht zerstören, das das Modell „mag“. Also baut es immer wieder dieselbe Struktur nach.
  3. Es ist systembedingt übertrieben selbstsicher.
    Viele Modelle antworten mit großer Sicherheit. Statt „Stimmt, da ist eine dritte Hand“ bekommst du also „Es sind zwei Hände“ — selbst dann, wenn deine Augen etwas anderes sagen.
  4. Edits sind nicht immer echte Edits.
    Je nach Tool verhält sich „Bearbeiten“ eher wie „ein ähnliches Bild neu erzeugen“. Und genau dadurch kann derselbe Fehler immer wieder zurückkommen.

Praktische Erkenntnis für Produktteams

Wenn du ein Produkt baust, das Bildgenerierung nutzt, solltest du nicht davon ausgehen, dass:

  • ein Prompt = ein korrektes Ergebnis
  • das Modell einer Korrekturanweisung folgt
  • das Modell den Fehler überhaupt erkennt

Anders gesagt: Behandle Bildausgaben als probabilistisch, nicht als deterministisch.

Wenn du höhere Erfolgsquoten willst, brauchst du meist Taktiken auf Produktebene:

  • klare Einschränkungen (Posen-Referenzen, konsistente Character Sheets)
  • echte Inpainting- / Masking-Workflows
  • mehrere Generierungen + Auswahl
  • automatisierte Checks (selbst einfache Heuristiken für Hände und Finger helfen)

Trotzdem … ich liebe genau diese Momente

So nervig das ist, es ist auch ziemlich komisch.
KI kann beeindruckende Kunst erzeugen — und dann ganz nebenbei eine dritte Hand erfinden und behaupten, du würdest sie dir nur einbilden.

Und genau diese Art von „echter KI im Alltag“ teile ich gerne, während ich Dinge baue.

Wenn dich das interessiert: In meinem AI Anime Chatbot-Projekt dokumentiere ich noch mehr solcher Eigenheiten — die lustigen und die frustrierenden.