بازگشت به بلاگ
۲۹ دی ۱۴۰۴Sergei Solod3 دقیقه مطالعه

وقتی هوش مصنوعی یک دست اضافه می‌سازد و اصرار دارد که همه‌چیز عادی است

مدل‌های تصویر می‌توانند با اطمینان کامل اشتباه کنند و حتی درخواست‌های اصلاح هم گاهی به شکلی عجیب و سمجانه شکست می‌خورند.

هوش مصنوعیتولید تصویرتوهم‌هاساخت محصولBuild in Publicچت‌بات‌ها

تا به حال شده به یک تصویر ساخته‌شده با هوش مصنوعی خیره شوی و با خودت بگویی:

«این دختر انیمه چند تا دست دارد؟»

برای من پیش آمد — و واقعاً حس می‌کردم دارم عقل‌ام را از دست می‌دهم. در تصویر واضحاً سه دست دیده می‌شد… اما مدل همچنان اصرار داشت که فقط دو تاست.

از آن خواستم دست اضافه را پنج بار حذف کند.
هیچ تغییری نکرد.
و خنده‌دارترین بخش ماجرا؟ حتی نگفت «اوه». فقط بیشتر روی جواب اشتباهش پافشاری کرد.

این دقیقاً یک نمونه‌ی عالی از این است که توهم‌های هوش مصنوعی در تولید تصویر چگونه ظاهر می‌شوند — و چرا «فقط دوباره بگو» همیشه جواب نمی‌دهد.

«توهم» در تصویر چه شکلی دارد؟

در متن، توهم یعنی واقعیت‌های ساختگی.
در تصویر، توهم یعنی آناتومی نادرست و جزئیاتِ از خود ساخته که در نگاه اول واقعی به نظر می‌رسند.

نمونه‌های رایج:

  • انگشت اضافه / دست‌وپای اضافه
  • مفصل‌های ناممکن
  • اشیای تکراری
  • اکسسوری‌های ناسازگار (گوشواره عوض می‌شود، لوگو شکلش تغییر می‌کند)
  • سایه‌های عجیب که با منبع نور هم‌خوانی ندارند

مدل نمی‌داند که اشتباه کرده — فقط پیکسل‌هایی را پیش‌بینی می‌کند که با الگوهای آموخته‌شده‌اش جور درمی‌آیند. اگر «دختر انیمه + ژست + کادربندی» معمولاً با شکل‌های خاصی همراه باشد، ممکن است تصویر را طوری «تکمیل» کند که باورپذیر به نظر برسد، اما از نظر فیزیکی درست نباشد.

چرا مدل آن را درست نمی‌کند، حتی وقتی به اشتباهش اشاره می‌کنی

این بخش برای خیلی‌ها عجیب است: حتی اگر خطا را کاملاً دقیق توضیح بدهی، باز هم ممکن است مدل نتواند آن را اصلاح کند.

چند دلیل دارد:

  1. نمی‌تواند مثل انسان جزئیات را قابل‌اعتماد «بشمارد» یا راستی‌آزمایی کند.
    مدل هیچ مرحله‌ی بازرسی واقعی انجام نمی‌دهد؛ هر بار فقط یک حدس تازه تولید می‌کند.
  2. درخواست تو با ترکیب‌بندی تصویر درگیر می‌شود.
    حذف یک دست ممکن است ژست، سیلوئت یا تعادلی را که مدل «دوست دارد» به هم بزند، برای همین دوباره همان ساختار را بازسازی می‌کند.
  3. به‌صورت طراحی‌شده بیش از حد مطمئن است.
    خیلی از مدل‌ها با اعتمادبه‌نفس زیاد جواب می‌دهند. بنابراین به‌جای اینکه بگوید «حق با توست، یک دست سوم هم هست»، می‌گوید «دو دست وجود دارد»؛ حتی وقتی چشمت چیز دیگری می‌بیند.
  4. ویرایش همیشه واقعاً ویرایش نیست.
    بسته به ابزار، «edit» ممکن است بیشتر شبیه «دوباره یک تصویر مشابه بساز» عمل کند، و همین باعث می‌شود همان اشتباه باز هم برگردد.

برداشت عملی برای کسانی که محصول می‌سازند

اگر داری محصولی می‌سازی که از تولید تصویر استفاده می‌کند، نباید فرض کنی که:

  • یک prompt = یک نتیجه‌ی درست
  • مدل درخواست اصلاح را دنبال می‌کند
  • مدل اصلاً اشتباه را می‌پذیرد

به بیان دیگر: خروجی تصویر را احتمالی ببین، نه قطعی.

اگر نرخ موفقیت بالاتری می‌خواهی، معمولاً به تاکتیک‌های سطح محصول نیاز داری:

  • محدودیت‌های محکم (مرجع ژست، شیت‌های کاراکترِ یکدست)
  • workflow واقعی برای inpainting / masking
  • چند نسل خروجی + انتخاب
  • بررسی‌های خودکار (حتی heuristicهای ساده برای دست و انگشت هم کمک می‌کنند)

با این حال… من این لحظه‌ها را دوست دارم

با همه‌ی آزاردهنده بودنش، یک جورهایی هم بامزه است.
هوش مصنوعی می‌تواند هنر خیره‌کننده تولید کند — و بعد خیلی عادی یک دست سوم اختراع کند و اصرار داشته باشد که تو فقط داری خیالش می‌کنی.

و دقیقاً همین نوع آشوبِ «هوش مصنوعیِ دنیای واقعی» است که دوست دارم هنگام ساختن با دیگران به اشتراک بگذارم.

اگر کنجکاوی، من دارم نمونه‌های بیشتری از این رفتارهای عجیب را در پروژه‌ی AI Anime Chatbot ثبت می‌کنم — هم بخش‌های بامزه‌اش و هم بخش‌های اعصاب‌خردکنش.