تا به حال شده به یک تصویر ساختهشده با هوش مصنوعی خیره شوی و با خودت بگویی:
«این دختر انیمه چند تا دست دارد؟»
برای من پیش آمد — و واقعاً حس میکردم دارم عقلام را از دست میدهم. در تصویر واضحاً سه دست دیده میشد… اما مدل همچنان اصرار داشت که فقط دو تاست.
از آن خواستم دست اضافه را پنج بار حذف کند.
هیچ تغییری نکرد.
و خندهدارترین بخش ماجرا؟ حتی نگفت «اوه». فقط بیشتر روی جواب اشتباهش پافشاری کرد.
این دقیقاً یک نمونهی عالی از این است که توهمهای هوش مصنوعی در تولید تصویر چگونه ظاهر میشوند — و چرا «فقط دوباره بگو» همیشه جواب نمیدهد.
«توهم» در تصویر چه شکلی دارد؟
در متن، توهم یعنی واقعیتهای ساختگی.
در تصویر، توهم یعنی آناتومی نادرست و جزئیاتِ از خود ساخته که در نگاه اول واقعی به نظر میرسند.
نمونههای رایج:
- انگشت اضافه / دستوپای اضافه
- مفصلهای ناممکن
- اشیای تکراری
- اکسسوریهای ناسازگار (گوشواره عوض میشود، لوگو شکلش تغییر میکند)
- سایههای عجیب که با منبع نور همخوانی ندارند
مدل نمیداند که اشتباه کرده — فقط پیکسلهایی را پیشبینی میکند که با الگوهای آموختهشدهاش جور درمیآیند. اگر «دختر انیمه + ژست + کادربندی» معمولاً با شکلهای خاصی همراه باشد، ممکن است تصویر را طوری «تکمیل» کند که باورپذیر به نظر برسد، اما از نظر فیزیکی درست نباشد.
چرا مدل آن را درست نمیکند، حتی وقتی به اشتباهش اشاره میکنی
این بخش برای خیلیها عجیب است: حتی اگر خطا را کاملاً دقیق توضیح بدهی، باز هم ممکن است مدل نتواند آن را اصلاح کند.
چند دلیل دارد:
- نمیتواند مثل انسان جزئیات را قابلاعتماد «بشمارد» یا راستیآزمایی کند.
مدل هیچ مرحلهی بازرسی واقعی انجام نمیدهد؛ هر بار فقط یک حدس تازه تولید میکند. - درخواست تو با ترکیببندی تصویر درگیر میشود.
حذف یک دست ممکن است ژست، سیلوئت یا تعادلی را که مدل «دوست دارد» به هم بزند، برای همین دوباره همان ساختار را بازسازی میکند. - بهصورت طراحیشده بیش از حد مطمئن است.
خیلی از مدلها با اعتمادبهنفس زیاد جواب میدهند. بنابراین بهجای اینکه بگوید «حق با توست، یک دست سوم هم هست»، میگوید «دو دست وجود دارد»؛ حتی وقتی چشمت چیز دیگری میبیند. - ویرایش همیشه واقعاً ویرایش نیست.
بسته به ابزار، «edit» ممکن است بیشتر شبیه «دوباره یک تصویر مشابه بساز» عمل کند، و همین باعث میشود همان اشتباه باز هم برگردد.
برداشت عملی برای کسانی که محصول میسازند
اگر داری محصولی میسازی که از تولید تصویر استفاده میکند، نباید فرض کنی که:
- یک prompt = یک نتیجهی درست
- مدل درخواست اصلاح را دنبال میکند
- مدل اصلاً اشتباه را میپذیرد
به بیان دیگر: خروجی تصویر را احتمالی ببین، نه قطعی.
اگر نرخ موفقیت بالاتری میخواهی، معمولاً به تاکتیکهای سطح محصول نیاز داری:
- محدودیتهای محکم (مرجع ژست، شیتهای کاراکترِ یکدست)
- workflow واقعی برای inpainting / masking
- چند نسل خروجی + انتخاب
- بررسیهای خودکار (حتی heuristicهای ساده برای دست و انگشت هم کمک میکنند)
با این حال… من این لحظهها را دوست دارم
با همهی آزاردهنده بودنش، یک جورهایی هم بامزه است.
هوش مصنوعی میتواند هنر خیرهکننده تولید کند — و بعد خیلی عادی یک دست سوم اختراع کند و اصرار داشته باشد که تو فقط داری خیالش میکنی.
و دقیقاً همین نوع آشوبِ «هوش مصنوعیِ دنیای واقعی» است که دوست دارم هنگام ساختن با دیگران به اشتراک بگذارم.
اگر کنجکاوی، من دارم نمونههای بیشتری از این رفتارهای عجیب را در پروژهی AI Anime Chatbot ثبت میکنم — هم بخشهای بامزهاش و هم بخشهای اعصابخردکنش.