عندما يضيف الذكاء الاصطناعي يدًا إضافية ويصرّ على أن كل شيء طبيعي

هل مررت يومًا بتلك اللحظة التي تحدّق فيها في صورة أنشأها الذكاء الاصطناعي وتفكر:

«كم يدًا لدى فتاة الأنمي هذه؟»

أنا مررت بها — وأقسم أنني شعرت أنني أفقد صوابي. كان هناك ثلاثة أيدٍ بوضوح في الصورة… لكن النموذج ظلّ يصرّ على أن عددها اثنتان فقط.

طلبت منه إزالة اليد الزائدة خمس مرات.
ولم يتغيّر شيء.
والأطرف من ذلك؟ لم يقل «عفوًا». بل تمسّك بإجابته أكثر.

هذا مثال مثالي على كيف تظهر هلوسات الذكاء الاصطناعي في توليد الصور — ولماذا لا تنجح فكرة «فقط اطلب منه مرة أخرى» دائمًا.

كيف تبدو «الهلوسة» في الصور

في النصوص، تكون الهلوسات عبارة عن حقائق مختلقة.
أما في الصور، فهي تشريح غير صحيح وتفاصيل مخترعة تبدو مقنعة من النظرة الأولى.

ومن الأمثلة الشائعة:

أصابع إضافية / أطراف إضافية
مفاصل مستحيلة
عناصر مكررة
إكسسوارات غير متسقة (الأقراط تتغير، والشعارات تتحول)
ظلال غريبة لا تتوافق مع مصدر الضوء

النموذج لا يعرف أنه مخطئ — هو فقط يتنبأ ببكسلات تشبه الأنماط التي تعلّمها. فإذا كان «فتاة أنمي + وضعية + إطار» يرتبط كثيرًا بأشكال معينة، فقد «يكمل» الصورة بطريقة تبدو معقولة لكنها غير متسقة جسديًا.

لماذا لا يصلح النموذج الخطأ (حتى عندما تشير إليه)

هذا الجزء يفاجئ كثيرًا من الناس: حتى لو وصفت الخطأ بدقة تامة، فقد يفشل النموذج في تصحيحه.

هناك عدة أسباب:

لا يستطيع أن «يعدّ» التفاصيل أو يتحقق منها بشكل موثوق كما يفعل الإنسان.
هو لا يجري عملية تدقيق حقيقية؛ بل ينتج تخمينًا جديدًا في كل مرة.
طلبك يتعارض مع التكوين البصري.
إزالة يد واحدة قد تفسد الوضعية أو الظل العام أو التوازن الذي «يفضله» النموذج، لذلك يستمر في إعادة بناء البنية نفسها.
هو واثق أكثر من اللازم بحكم التصميم.
كثير من النماذج تجيب بثقة عالية. لذلك بدلًا من أن يقول: «أنت محق، هناك يد ثالثة»، يقول: «هناك يدان»، حتى عندما ترى عيناك غير ذلك.
التحرير ليس دائمًا تحريرًا حقيقيًا.
بحسب الأداة، قد يتصرف «التحرير» أقرب إلى «إعادة توليد صورة مشابهة»، ما يعني أن الخطأ نفسه قد يعود مرارًا.

خلاصة عملية لمن يبنون المنتجات

إذا كنت تبني منتجًا يعتمد على توليد الصور، فلا تفترض أن:

طلب واحد = نتيجة صحيحة واحدة
النموذج سيلتزم بطلب التصحيح
النموذج سيعترف أصلًا بوجود الخطأ

بمعنى آخر: تعامل مع مخرجات الصور على أنها احتمالية، لا حتمية.

إذا كنت تريد معدلات نجاح أعلى، فغالبًا ستحتاج إلى أساليب على مستوى المنتج:

قيود قوية (مراجع للوضعيات، وأوراق شخصيات متسقة)
مسارات عمل حقيقية للـ inpainting / masking
توليد عدة نسخ ثم الاختيار بينها
فحوصات آلية (حتى القواعد البسيطة لاكتشاف مشاكل الأيدي والأصابع تساعد)

ومع ذلك… أنا أحب هذه اللحظات

رغم أنها مزعجة، فهي أيضًا مضحكة بطريقة ما.
يمكن للذكاء الاصطناعي أن يصنع فنًا مدهشًا — ثم يخترع يدًا ثالثة بكل هدوء ويصرّ على أنك تتوهمها.

وهذا بالضبط النوع من فوضى «الذكاء الاصطناعي في العالم الحقيقي» الذي أحب مشاركته وأنا أبني.

إذا كنت مهتمًا، فأنا أوثّق المزيد من هذه الغرائب في مشروع AI Anime Chatbot — الأجزاء الممتعة و الأجزاء المحبطة.