जब AI एक अतिरिक्त हाथ जोड़ देता है और कहता है कि सब ठीक है

क्या कभी ऐसा हुआ है कि आप AI से बनी किसी तस्वीर को देखते रह जाएँ और सोचें:

“इस ऐनिमे लड़की के आखिर कितने हाथ हैं?”

मेरे साथ हुआ — और सच कहूँ तो मुझे लगा मैं पागल हो रहा हूँ। तस्वीर में साफ़-साफ़ तीन हाथ थे… लेकिन मॉडल बार-बार यही कहता रहा कि हाथ तो सिर्फ दो ही हैं।

मैंने उससे अतिरिक्त हाथ हटाने को पाँच बार कहा।
उस पर कोई असर नहीं हुआ।
और सबसे मज़ेदार बात? उसने “ओह” भी नहीं कहा। उल्टा अपनी बात पर और अड़ गया।

यही एक बढ़िया उदाहरण है कि AI hallucinations इमेज जनरेशन में कैसे दिखाई देते हैं — और क्यों “बस फिर से बोल दो” हमेशा काम नहीं करता।

इमेज में “hallucination” दिखता कैसा है

टेक्स्ट में hallucination का मतलब होता है गढ़ी हुई बातें।
इमेज में इसका मतलब है गलत anatomy और घड़ी हुई details, जो पहली नज़र में बिल्कुल असली लग सकती हैं।

आम उदाहरण:

अतिरिक्त उंगलियाँ / अतिरिक्त हाथ-पैर
नामुमकिन joints
डुप्लिकेट objects
असंगत accessories (कानों के झुमके बदल जाते हैं, लोगो विकृत हो जाते हैं)
अजीब shadows जो light source से मेल नहीं खाते

मॉडल को पता नहीं होता कि वह गलत है — वह बस उन pixels का अनुमान लगा रहा होता है जो उसके सीखे हुए patterns से मेल खाते हैं। अगर “anime girl + pose + framing” अक्सर कुछ खास shapes से जुड़ता है, तो मॉडल तस्वीर को ऐसे “पूरा” कर सकता है जो देखने में ठीक लगे, लेकिन शारीरिक रूप से सही न हो।

आप बताने पर भी मॉडल इसे ठीक क्यों नहीं करता

यही हिस्सा लोगों को सबसे ज़्यादा चौंकाता है: आप गलती को बिल्कुल साफ़-साफ़ बता दें, फिर भी मॉडल उसे ठीक न कर पाए।

इसके कुछ कारण हैं:

यह इंसान की तरह details को भरोसेमंद ढंग से “गिन” या verify नहीं कर सकता।
यह कोई असली audit pass नहीं चला रहा होता; हर बार बस एक नया अनुमान बना रहा होता है।
आपकी request composition से टकराती है।
एक हाथ हटाने से pose, silhouette या वह balance टूट सकता है जो मॉडल को “पसंद” है, इसलिए वह बार-बार वही structure फिर से बना देता है।
डिज़ाइन के हिसाब से यह जरूरत से ज़्यादा confident होता है।
कई मॉडल बहुत भरोसे के साथ जवाब देते हैं। इसलिए “हाँ, तुम सही हो, यहाँ तीसरा हाथ है” कहने के बजाय वह कहता है “दो हाथ हैं”, जबकि आपकी आँखें कुछ और देख रही होती हैं।
Edit हमेशा सचमुच edit नहीं होता.
टूल के हिसाब से “edit” कई बार “मिलती-जुलती तस्वीर फिर से बनाओ” जैसा व्यवहार करता है, और वही गलती बार-बार लौट आती है।

प्रोडक्ट बनाने वालों के लिए व्यावहारिक takeaway

अगर आप ऐसा प्रोडक्ट बना रहे हैं जो इमेज जनरेशन का इस्तेमाल करता है, तो यह मानकर नहीं चल सकते कि:

एक prompt = एक सही result
मॉडल correction request मान लेगा
मॉडल गलती मानेगा भी

दूसरे शब्दों में: इमेज आउटपुट को deterministic नहीं, probabilistic समझिए।

अगर आप बेहतर success rate चाहते हैं, तो आमतौर पर product-level tactics की ज़रूरत होती है:

मज़बूत constraints (pose references, consistent character sheets)
असल inpainting / masking workflows
multiple generations + selection
automated checks (हाथ और उंगलियों के लिए basic heuristics भी मदद कर सकती हैं)

फिर भी… मुझे ऐसे पल पसंद हैं

जितना यह परेशान करता है, उतना ही मज़ेदार भी है।
AI शानदार आर्ट बना सकता है — और फिर बिल्कुल casually तीसरा हाथ जोड़कर कह सकता है कि गलती आपकी नज़र में है।

और यही “real-world AI” वाला chaos है जिसे मैं बनाते समय शेयर करना पसंद करता हूँ।

अगर आपको दिलचस्पी है, तो मैं ऐसी और weird चीज़ें अपने AI Anime Chatbot प्रोजेक्ट में दर्ज कर रहा हूँ — मज़ेदार हिस्से भी और frustrating हिस्से भी।