Yapay zekâ fazladan bir el ekleyip bunun gayet normal olduğunu söylediğinde

Hiç yapay zekâ tarafından üretilmiş bir görsele bakıp şöyle düşündüğünüz oldu mu:

“Bu anime kızının tam olarak kaç eli var?”

Ben yaşadım — ve yemin ederim bir an gerçekten aklımı kaçırdığımı düşündüm. Görselde apaçık üç el vardı… ama model inatla sadece iki el olduğunu söyleyip duruyordu.

Fazladan eli kaldırmasını beş kez istedim.
Hiçbir şey değişmedi.
En komik kısmı neydi? “Pardon” bile demedi. Aksine yanlış cevabında daha da diretti.

Bu, yapay zekâ halüsinasyonlarının görsel üretiminde nasıl ortaya çıktığına dair kusursuz bir örnek — ve neden “bir daha iste, düzelir” yaklaşımının her zaman işe yaramadığını gösteriyor.

Görsellerde “halüsinasyon” nasıl görünür?

Metinde halüsinasyon, uydurulmuş bilgi demektir.
Görselde ise yanlış anatomi ve uydurulmuş detaylar demektir; üstelik ilk bakışta oldukça inandırıcı görünebilirler.

Yaygın örnekler:

fazladan parmak / fazladan uzuv
imkânsız eklemler
kopyalanmış nesneler
tutarsız aksesuarlar (küpeler değişir, logolar biçim değiştirir)
ışık kaynağıyla uyuşmayan garip gölgeler

Model yanlış yaptığını bilmez — sadece öğrendiği kalıplarla uyuşan pikselleri tahmin eder. Eğer “anime girl + pose + framing” belirli şekillerle sık sık birlikte görülüyorsa, görseli ilk bakışta mantıklı görünen ama fiziksel olarak tutarsız bir şekilde “tamamlayabilir”.

Neden hata gösterilse bile model bunu düzeltmez?

İnsanları şaşırtan kısım tam da bu: Hatayı kusursuz biçimde tarif etseniz bile model yine de düzeltemeyebilir.

Bunun birkaç nedeni var:

Bir insan gibi ayrıntıları güvenilir şekilde “sayamaz” ya da doğrulayamaz.
Gerçek bir kontrol aşaması yürütmez; her seferinde sadece yeni bir tahmin üretir.
İsteğiniz kompozisyonla çatışır.
Bir eli kaldırmak, modelin “sevdiği” pozu, silüeti ya da dengeyi bozabilir. Bu yüzden aynı yapıyı tekrar tekrar kurar.
Tasarımsal olarak aşırı özgüvenli görünür.
Birçok model yüksek güvenle yanıt verir. Bu yüzden “haklısın, burada üçüncü bir el var” demek yerine “iki el var” der; gözünüz açıkça tersini görse bile.
Edit her zaman gerçek edit değildir.
Kullandığınız araca bağlı olarak “edit”, “benzer bir görseli yeniden üret” gibi davranabilir. Bu da aynı hatanın sürekli geri gelmesine yol açar.

Ürün geliştirenler için pratik çıkarım

Eğer görsel üretimi kullanan bir ürün inşa ediyorsanız, şu varsayımları yapamazsınız:

tek prompt = tek doğru sonuç
model düzeltme isteğine uyacaktır
model hatayı kabul edecektir

Kısacası: görsel çıktıyı deterministik değil, olasılıksal olarak değerlendirin.

Daha yüksek başarı oranı istiyorsanız, genellikle ürün seviyesinde taktiklere ihtiyacınız olur:

güçlü kısıtlar (poz referansları, tutarlı character sheet’ler)
gerçek inpainting / masking workflow’ları
birden fazla üretim + seçim
otomatik kontroller (el ve parmaklar için basit heuristics bile işe yarar)

Yine de… ben bu anları seviyorum

Ne kadar sinir bozucu olsa da bir o kadar da komik.
Yapay zekâ etkileyici bir görsel üretebiliyor — sonra da gayet rahat bir şekilde üçüncü eli ekleyip bunu sizin hayal ettiğinizi söyleyebiliyor.

Ve tam olarak bu tür “gerçek dünyadaki yapay zekâ” kaosunu, bir şeyler inşa ederken paylaşmayı seviyorum.

Merak ediyorsanız, AI Anime Chatbot projemde bunun gibi daha birçok tuhaflığı belgeliyorum — eğlenceli kısımları da ve sinir bozucu kısımları da.