কখনও এমন হয়েছে, AI-জেনারেট করা একটা ছবি দেখে হঠাৎ মনে হয়েছে:
“এই অ্যানিমে মেয়েটার হাত কয়টা?”
আমার হয়েছে — আর সত্যি বলতে, তখন মনে হচ্ছিল আমি বুঝি পাগল হয়ে যাচ্ছি। ছবিটায় স্পষ্টই তিনটা হাত ছিল… কিন্তু মডেল বারবার বলেই গেল, না, হাত তো মাত্র দুটো।
আমি ওকে বাড়তি হাতটা সরাতে বলেছিলাম পাঁচবার।
একটুও বদলাল না।
সবচেয়ে মজার ব্যাপার? ও “উফ”ও বলল না। উল্টো নিজের কথাতেই আরও জোর দিল।
এটাই দেখায়, AI hallucination ইমেজ জেনারেশনে কীভাবে দেখা দেয় — আর কেন “আবার বললেই ঠিক হয়ে যাবে” সব সময় কাজ করে না।
ছবিতে “hallucination” দেখতে কেমন
টেক্সটে hallucination মানে বানানো তথ্য।
ছবিতে hallucination মানে ভুল অ্যানাটমি আর মনগড়া ডিটেইল, যেগুলো প্রথম দেখায় একদম বিশ্বাসযোগ্য মনে হয়।
সাধারণ উদাহরণ:
- অতিরিক্ত আঙুল / অতিরিক্ত অঙ্গ
- অসম্ভব ধরনের জয়েন্ট
- ডুপ্লিকেট অবজেক্ট
- অসামঞ্জস্যপূর্ণ অ্যাক্সেসরি (কানের দুল বদলে যায়, লোগো বিকৃত হয়)
- অদ্ভুত ছায়া, যা আলোয়ের উৎসের সঙ্গে মেলে না
মডেলটি জানে না যে সে ভুল করছে — সে শুধু এমন পিক্সেল ভবিষ্যদ্বাণী করছে, যেগুলো তার শেখা প্যাটার্নের সঙ্গে মিলে যায়। যদি “anime girl + pose + framing” প্রায়ই কিছু নির্দিষ্ট আকৃতির সঙ্গে মেলে, তাহলে সে ছবিটাকে এমনভাবে “পূর্ণ” করতে পারে, যা দেখতে বিশ্বাসযোগ্য হলেও বাস্তব শরীরবিদ্যার সঙ্গে মেলে না।
আপনি ধরিয়ে দিলেও মডেল কেন ঠিক করতে চায় না
এই অংশটাই অনেকের কাছে অবাক করার মতো: আপনি ভুলটা একদম ঠিকঠাক বুঝিয়ে দিলেও, মডেল তবু সেটা ঠিক নাও করতে পারে।
কয়েকটা কারণ আছে:
- এটা মানুষ যেমনভাবে ডিটেইল “গুনে” বা যাচাই করতে পারে, সেভাবে পারে না।
এটা কোনো সত্যিকারের audit pass চালাচ্ছে না; প্রতিবারই নতুন করে একটা অনুমান করছে। - আপনার অনুরোধটা ছবির কম্পোজিশনের সঙ্গে লড়াই করে।
একটা হাত সরিয়ে দিলে পোজ, সিলুয়েট বা মডেলের “পছন্দের” ভারসাম্য নষ্ট হয়ে যেতে পারে, তাই সে আবার একই গঠনটাই বানিয়ে ফেলে। - ডিজাইনগতভাবেই এটা অতিরিক্ত আত্মবিশ্বাসী।
অনেক মডেল খুব আত্মবিশ্বাসের সঙ্গে উত্তর দেয়। তাই “হ্যাঁ, তুমি ঠিক — এখানে তৃতীয় হাত আছে” বলার বদলে সে বলে “দুটো হাতই আছে”, যদিও চোখে আপনি অন্য কিছু দেখছেন। - সব edit আসলে সত্যিকারের edit নয়।
টুলভেদে “edit” অনেক সময় “একই রকম আরেকটা ছবি নতুন করে বানাও”-এর মতো কাজ করে, ফলে একই ভুল বারবার ফিরে আসতে পারে।
প্রোডাক্ট বিল্ডারদের জন্য ব্যবহারিক takeaway
আপনি যদি ইমেজ জেনারেশন ব্যবহার করে কোনো প্রোডাক্ট বানান, তাহলে ধরে নিতে পারবেন না যে:
- একটা prompt = একটা সঠিক ফল
- মডেল correction request ঠিকমতো মানবে
- মডেল ভুল স্বীকারও করবে
অন্যভাবে বললে: ইমেজ আউটপুটকে deterministic নয়, probabilistic হিসেবে ধরুন।
সাফল্যের হার বাড়াতে চাইলে, সাধারণত আপনাকে প্রোডাক্ট-লেভেলের কিছু কৌশল লাগবে:
- শক্ত constraints (pose reference, consistent character sheet)
- সত্যিকারের inpainting / masking workflow
- একাধিক generation + selection
- automated check (হাত/আঙুল ধরার সাধারণ heuristic-ও কাজে দেয়)
তবু… এই মুহূর্তগুলো আমার ভালো লাগে
যতই বিরক্তিকর হোক, ব্যাপারটা আবার বেশ মজারও।
AI দারুণ সুন্দর ছবি বানাতে পারে — তারপর হঠাৎ করে একটা তৃতীয় হাত বানিয়ে বসে, আর বলে আপনি নাকি ভুল দেখছেন।
আর এই ধরনের “real-world AI” বিশৃঙ্খলাই আমি তৈরি করতে করতে শেয়ার করতে ভালোবাসি।
কৌতূহল থাকলে, আমার AI Anime Chatbot প্রোজেক্টে আমি এমন আরও অনেক অদ্ভুত অভিজ্ঞতা লিখে রাখছি — মজার অংশগুলোও, এবং বিরক্তিকর অংশগুলোও।