Kiedy AI dodaje dodatkową rękę i upiera się, że wszystko jest w porządku

Czy zdarzyło ci się kiedyś wpatrywać w obraz wygenerowany przez AI i pomyśleć:

„Ile rąk ma właściwie ta dziewczyna z anime?”

Mnie tak — i przysięgam, że przez chwilę myślałem, że wariuję. Na obrazie były wyraźnie trzy ręce… ale model uparcie twierdził, że są tylko dwie.

Poprosiłem go o usunięcie dodatkowej ręki pięć razy.
Bez efektu.
A najlepsze? Nawet nie powiedział „ups”. Po prostu jeszcze mocniej trwał przy swoim.

To świetny przykład tego, jak halucynacje AI wyglądają w generowaniu obrazów — i dlaczego „po prostu poproś jeszcze raz” nie zawsze działa.

Jak wygląda „halucynacja” w obrazach

W tekście halucynacje to zmyślone fakty.
W obrazach to błędna anatomia i wymyślone detale, które na pierwszy rzut oka wydają się wiarygodne.

Typowe przykłady:

dodatkowe palce / dodatkowe kończyny
niemożliwe stawy
zduplikowane obiekty
niespójne akcesoria (kolczyki się zmieniają, logotypy się deformują)
dziwne cienie, które nie pasują do źródła światła

Model nie wie, że się myli — po prostu przewiduje piksele pasujące do wzorców, których się nauczył. Jeśli „anime girl + pose + framing” często wiąże się z określonymi kształtami, model może „domknąć” obraz w sposób, który wygląda przekonująco, ale fizycznie nie ma sensu.

Dlaczego model tego nie poprawia, nawet gdy mu to pokażesz

Ta część zaskakuje wiele osób: nawet jeśli perfekcyjnie opiszesz błąd, model wciąż może nie umieć go naprawić.

Powodów jest kilka:

Nie potrafi wiarygodnie „liczyć” ani weryfikować szczegółów tak jak człowiek.
Nie wykonuje prawdziwego audytu; za każdym razem tworzy po prostu nową zgadywankę.
Twoja prośba kłóci się z kompozycją.
Usunięcie jednej ręki może zepsuć pozę, sylwetkę albo balans, który model „lubi”, więc wciąż odtwarza tę samą strukturę.
Z założenia brzmi zbyt pewnie.
Wiele modeli odpowiada z dużą pewnością siebie. Zamiast powiedzieć „masz rację, jest tam trzecia ręka”, mówi „są dwie ręce”, nawet jeśli twoje oczy widzą coś innego.
Edycja nie zawsze jest prawdziwą edycją.
W zależności od narzędzia „edytuj” może działać bardziej jak „wygeneruj podobny obraz od nowa”, przez co ten sam błąd może wracać bez końca.

Praktyczny wniosek dla osób budujących produkty

Jeśli tworzysz produkt wykorzystujący generowanie obrazów, nie możesz zakładać, że:

jeden prompt = jeden poprawny wynik
model zastosuje się do prośby o poprawkę
model w ogóle przyzna się do błędu

Innymi słowy: traktuj wynik obrazowy jako probabilistyczny, a nie deterministyczny.

Jeśli chcesz zwiększyć skuteczność, zwykle potrzebujesz taktyk na poziomie produktu:

mocnych ograniczeń (referencje pozy, spójne karty postaci)
prawdziwych workflowów inpainting / masking
wielu generacji + selekcji
automatycznych kontroli (nawet proste heurystyki dla dłoni i palców pomagają)

A mimo to… uwielbiam takie momenty

To bywa irytujące, ale jest też po prostu zabawne.
AI potrafi stworzyć zachwycającą grafikę — a potem od niechcenia dorobić trzecią rękę i jeszcze wmówić ci, że tylko ci się wydaje.

I właśnie takim „prawdziwym AI z życia” chaosem lubię dzielić się podczas budowania.

Jeśli cię to ciekawi, dokumentuję więcej takich dziwactw w moim projekcie AI Anime Chatbot — te zabawne momenty i te frustrujące.