যখন AI বাড়তি একটা হাত যোগ করে আর বলে সব ঠিক আছে

কখনও এমন হয়েছে, AI-জেনারেট করা একটা ছবি দেখে হঠাৎ মনে হয়েছে:

“এই অ্যানিমে মেয়েটার হাত কয়টা?”

আমার হয়েছে — আর সত্যি বলতে, তখন মনে হচ্ছিল আমি বুঝি পাগল হয়ে যাচ্ছি। ছবিটায় স্পষ্টই তিনটা হাত ছিল… কিন্তু মডেল বারবার বলেই গেল, না, হাত তো মাত্র দুটো।

আমি ওকে বাড়তি হাতটা সরাতে বলেছিলাম পাঁচবার।
একটুও বদলাল না।
সবচেয়ে মজার ব্যাপার? ও “উফ”ও বলল না। উল্টো নিজের কথাতেই আরও জোর দিল।

এটাই দেখায়, AI hallucination ইমেজ জেনারেশনে কীভাবে দেখা দেয় — আর কেন “আবার বললেই ঠিক হয়ে যাবে” সব সময় কাজ করে না।

ছবিতে “hallucination” দেখতে কেমন

টেক্সটে hallucination মানে বানানো তথ্য।
ছবিতে hallucination মানে ভুল অ্যানাটমি আর মনগড়া ডিটেইল, যেগুলো প্রথম দেখায় একদম বিশ্বাসযোগ্য মনে হয়।

সাধারণ উদাহরণ:

অতিরিক্ত আঙুল / অতিরিক্ত অঙ্গ
অসম্ভব ধরনের জয়েন্ট
ডুপ্লিকেট অবজেক্ট
অসামঞ্জস্যপূর্ণ অ্যাক্সেসরি (কানের দুল বদলে যায়, লোগো বিকৃত হয়)
অদ্ভুত ছায়া, যা আলোয়ের উৎসের সঙ্গে মেলে না

মডেলটি জানে না যে সে ভুল করছে — সে শুধু এমন পিক্সেল ভবিষ্যদ্বাণী করছে, যেগুলো তার শেখা প্যাটার্নের সঙ্গে মিলে যায়। যদি “anime girl + pose + framing” প্রায়ই কিছু নির্দিষ্ট আকৃতির সঙ্গে মেলে, তাহলে সে ছবিটাকে এমনভাবে “পূর্ণ” করতে পারে, যা দেখতে বিশ্বাসযোগ্য হলেও বাস্তব শরীরবিদ্যার সঙ্গে মেলে না।

আপনি ধরিয়ে দিলেও মডেল কেন ঠিক করতে চায় না

এই অংশটাই অনেকের কাছে অবাক করার মতো: আপনি ভুলটা একদম ঠিকঠাক বুঝিয়ে দিলেও, মডেল তবু সেটা ঠিক নাও করতে পারে।

কয়েকটা কারণ আছে:

এটা মানুষ যেমনভাবে ডিটেইল “গুনে” বা যাচাই করতে পারে, সেভাবে পারে না।
এটা কোনো সত্যিকারের audit pass চালাচ্ছে না; প্রতিবারই নতুন করে একটা অনুমান করছে।
আপনার অনুরোধটা ছবির কম্পোজিশনের সঙ্গে লড়াই করে।
একটা হাত সরিয়ে দিলে পোজ, সিলুয়েট বা মডেলের “পছন্দের” ভারসাম্য নষ্ট হয়ে যেতে পারে, তাই সে আবার একই গঠনটাই বানিয়ে ফেলে।
ডিজাইনগতভাবেই এটা অতিরিক্ত আত্মবিশ্বাসী।
অনেক মডেল খুব আত্মবিশ্বাসের সঙ্গে উত্তর দেয়। তাই “হ্যাঁ, তুমি ঠিক — এখানে তৃতীয় হাত আছে” বলার বদলে সে বলে “দুটো হাতই আছে”, যদিও চোখে আপনি অন্য কিছু দেখছেন।
সব edit আসলে সত্যিকারের edit নয়।
টুলভেদে “edit” অনেক সময় “একই রকম আরেকটা ছবি নতুন করে বানাও”-এর মতো কাজ করে, ফলে একই ভুল বারবার ফিরে আসতে পারে।

প্রোডাক্ট বিল্ডারদের জন্য ব্যবহারিক takeaway

আপনি যদি ইমেজ জেনারেশন ব্যবহার করে কোনো প্রোডাক্ট বানান, তাহলে ধরে নিতে পারবেন না যে:

একটা prompt = একটা সঠিক ফল
মডেল correction request ঠিকমতো মানবে
মডেল ভুল স্বীকারও করবে

অন্যভাবে বললে: ইমেজ আউটপুটকে deterministic নয়, probabilistic হিসেবে ধরুন।

সাফল্যের হার বাড়াতে চাইলে, সাধারণত আপনাকে প্রোডাক্ট-লেভেলের কিছু কৌশল লাগবে:

শক্ত constraints (pose reference, consistent character sheet)
সত্যিকারের inpainting / masking workflow
একাধিক generation + selection
automated check (হাত/আঙুল ধরার সাধারণ heuristic-ও কাজে দেয়)

তবু… এই মুহূর্তগুলো আমার ভালো লাগে

যতই বিরক্তিকর হোক, ব্যাপারটা আবার বেশ মজারও।
AI দারুণ সুন্দর ছবি বানাতে পারে — তারপর হঠাৎ করে একটা তৃতীয় হাত বানিয়ে বসে, আর বলে আপনি নাকি ভুল দেখছেন।

আর এই ধরনের “real-world AI” বিশৃঙ্খলাই আমি তৈরি করতে করতে শেয়ার করতে ভালোবাসি।

কৌতূহল থাকলে, আমার AI Anime Chatbot প্রোজেক্টে আমি এমন আরও অনেক অদ্ভুত অভিজ্ঞতা লিখে রাখছি — মজার অংশগুলোও, এবং বিরক্তিকর অংশগুলোও।