เมื่อ AI เติมมือมาอีกข้างแล้วบอกหน้าตาเฉยว่าทุกอย่างปกติดี

เคยมีโมเมนต์ที่คุณจ้องภาพที่ AI สร้างขึ้นแล้วคิดไหมว่า:

“สาวอนิเมะคนนี้มีกี่มือกันแน่?”

ผมเคย — และบอกตรง ๆ ว่าช่วงนั้นเหมือนตัวเองจะเป็นบ้าอยู่แล้ว ในภาพมันมี สามมือแบบชัดเจนมาก… แต่โมเดลก็ยังยืนยันหน้าตาเฉยว่ามีแค่สองมือ

ผมขอให้มันลบมือส่วนเกินออก ห้าครั้ง.
ก็ยังไม่เปลี่ยนอะไรเลย
และที่ตลกที่สุดคือ? มันไม่ได้พูดว่า “อุ๊ปส์” ด้วยซ้ำ กลับยิ่งมั่นใจกับคำตอบเดิมมากขึ้นอีก

นี่เป็นตัวอย่างที่ชัดมากว่า อาการหลอนของ AI โผล่มาในงานสร้างภาพได้อย่างไร — และทำไมการ “ขอใหม่อีกรอบ” ถึงไม่ได้ช่วยเสมอไป

“อาการหลอน” ในภาพหน้าตาเป็นแบบไหน

ถ้าเป็นข้อความ อาการหลอนคือข้อมูลที่แต่งขึ้นมาเอง
แต่ถ้าเป็นภาพ มันคือ กายวิภาคที่ผิด และ รายละเอียดที่ถูกมโนขึ้น ซึ่งมองแวบแรกอาจดูน่าเชื่อมาก

ตัวอย่างที่พบบ่อย:

นิ้วเกิน / แขนขาเกิน
ข้อต่อที่เป็นไปไม่ได้
วัตถุซ้ำ
เครื่องประดับไม่ต่อเนื่องกัน (ต่างหูเปลี่ยน โลโก้บิดเพี้ยน)
เงาแปลก ๆ ที่ไม่สัมพันธ์กับแหล่งกำเนิดแสง

โมเดลไม่ได้ รู้ตัว ว่ามันผิด — มันแค่ทำนายพิกเซลที่เข้ากับแพตเทิร์นที่มันเคยเรียนรู้มา หาก “anime girl + pose + framing” มักสัมพันธ์กับรูปทรงบางแบบ มันก็อาจ “เติมเต็ม” ภาพออกมาในลักษณะที่ดูเหมือนสมเหตุสมผล แต่จริง ๆ แล้วขัดกับความเป็นจริงทางกายภาพ

ทำไมโมเดลถึงไม่ยอมแก้ แม้เราจะชี้ให้เห็นแล้ว

ตรงนี้แหละที่หลายคนประหลาดใจ: ต่อให้คุณอธิบายข้อผิดพลาดได้เป๊ะมาก โมเดลก็ยังอาจแก้ไม่สำเร็จอยู่ดี

มีหลายเหตุผล:

มันไม่สามารถ “นับ” หรือเช็กดีเทลได้อย่างน่าเชื่อถือแบบที่มนุษย์ทำ
มันไม่ได้มีขั้นตอนตรวจทานจริง ๆ แต่แค่สร้างคำเดาใหม่ทุกครั้ง
คำขอของคุณไปชนกับองค์ประกอบภาพ
การลบมือออกหนึ่งข้างอาจทำให้ท่าทาง ซิลูเอต หรือสมดุลที่โมเดล “ชอบ” พังได้ มันเลยวนกลับไปสร้างโครงเดิมซ้ำ ๆ
มันถูกออกแบบมาให้ตอบอย่างมั่นใจเกินไป
หลายโมเดลตอบด้วยความมั่นใจสูงมาก แทนที่จะบอกว่า “ใช่ คุณพูดถูก มีมือที่สามจริง” มันกลับบอกว่า “มีสองมือ” แม้ว่าตาคุณจะเห็นต่างชัด ๆ
การแก้ไขไม่ได้แปลว่าแก้จริงเสมอไป
ขึ้นอยู่กับเครื่องมือ คำว่า “edit” อาจทำงานคล้าย “สร้างภาพใหม่ที่หน้าตาคล้ายเดิม” มากกว่า ซึ่งแปลว่าความผิดพลาดเดิมอาจย้อนกลับมาอีกเรื่อย ๆ

ข้อสรุปเชิงปฏิบัติสำหรับคนทำโปรดักต์

ถ้าคุณกำลังสร้างโปรดักต์ที่ใช้การสร้างภาพ คุณไม่ควรตั้งสมมติฐานว่า:

หนึ่งพรอมต์ = หนึ่งผลลัพธ์ที่ถูกต้อง
โมเดลจะทำตามคำขอแก้ไข
โมเดลจะยอมรับด้วยซ้ำว่ามันผิด

พูดอีกแบบคือ: ให้มองผลลัพธ์ของภาพว่าเป็นเรื่องเชิงความน่าจะเป็น ไม่ใช่สิ่งที่กำหนดตายตัว

ถ้าคุณอยากเพิ่มอัตราความสำเร็จ โดยมากคุณต้องมีวิธีรับมือในระดับโปรดักต์:

ข้อจำกัดที่ชัดเจน (pose reference, character sheet ที่สม่ำเสมอ)
workflow ของ inpainting / masking ที่เป็นของจริง
สร้างหลายแบบแล้วคัดเลือก
ระบบตรวจสอบอัตโนมัติ (แม้แต่ heuristic ง่าย ๆ สำหรับมือและนิ้วก็ช่วยได้)

แต่ถึงอย่างนั้น… ผมก็ยังชอบโมเมนต์แบบนี้

มันน่าหงุดหงิดก็จริง แต่ก็ขำดีเหมือนกัน
AI สามารถสร้างงานภาพที่สวยมากได้ — แล้วจู่ ๆ ก็เติมมือที่สามเข้าไปแบบหน้าตาเฉย พร้อมยืนยันว่าคุณต่างหากที่มองผิด

และนี่แหละคือความวุ่นวายแบบ “AI ในโลกจริง” ที่ผมชอบหยิบมาเล่าระหว่างที่กำลังสร้างของ

ถ้าคุณสนใจ ผมกำลังบันทึกความเพี้ยนแบบนี้ไว้อีกหลายอย่างในโปรเจกต์ AI Anime Chatbot — ทั้งส่วนที่สนุก และ ส่วนที่ชวนปวดหัว