เคยมีโมเมนต์ที่คุณจ้องภาพที่ AI สร้างขึ้นแล้วคิดไหมว่า:
“สาวอนิเมะคนนี้มีกี่มือกันแน่?”
ผมเคย — และบอกตรง ๆ ว่าช่วงนั้นเหมือนตัวเองจะเป็นบ้าอยู่แล้ว ในภาพมันมี สามมือแบบชัดเจนมาก… แต่โมเดลก็ยังยืนยันหน้าตาเฉยว่ามีแค่สองมือ
ผมขอให้มันลบมือส่วนเกินออก ห้าครั้ง.
ก็ยังไม่เปลี่ยนอะไรเลย
และที่ตลกที่สุดคือ? มันไม่ได้พูดว่า “อุ๊ปส์” ด้วยซ้ำ กลับยิ่งมั่นใจกับคำตอบเดิมมากขึ้นอีก
นี่เป็นตัวอย่างที่ชัดมากว่า อาการหลอนของ AI โผล่มาในงานสร้างภาพได้อย่างไร — และทำไมการ “ขอใหม่อีกรอบ” ถึงไม่ได้ช่วยเสมอไป
“อาการหลอน” ในภาพหน้าตาเป็นแบบไหน
ถ้าเป็นข้อความ อาการหลอนคือข้อมูลที่แต่งขึ้นมาเอง
แต่ถ้าเป็นภาพ มันคือ กายวิภาคที่ผิด และ รายละเอียดที่ถูกมโนขึ้น ซึ่งมองแวบแรกอาจดูน่าเชื่อมาก
ตัวอย่างที่พบบ่อย:
- นิ้วเกิน / แขนขาเกิน
- ข้อต่อที่เป็นไปไม่ได้
- วัตถุซ้ำ
- เครื่องประดับไม่ต่อเนื่องกัน (ต่างหูเปลี่ยน โลโก้บิดเพี้ยน)
- เงาแปลก ๆ ที่ไม่สัมพันธ์กับแหล่งกำเนิดแสง
โมเดลไม่ได้ รู้ตัว ว่ามันผิด — มันแค่ทำนายพิกเซลที่เข้ากับแพตเทิร์นที่มันเคยเรียนรู้มา หาก “anime girl + pose + framing” มักสัมพันธ์กับรูปทรงบางแบบ มันก็อาจ “เติมเต็ม” ภาพออกมาในลักษณะที่ดูเหมือนสมเหตุสมผล แต่จริง ๆ แล้วขัดกับความเป็นจริงทางกายภาพ
ทำไมโมเดลถึงไม่ยอมแก้ แม้เราจะชี้ให้เห็นแล้ว
ตรงนี้แหละที่หลายคนประหลาดใจ: ต่อให้คุณอธิบายข้อผิดพลาดได้เป๊ะมาก โมเดลก็ยังอาจแก้ไม่สำเร็จอยู่ดี
มีหลายเหตุผล:
- มันไม่สามารถ “นับ” หรือเช็กดีเทลได้อย่างน่าเชื่อถือแบบที่มนุษย์ทำ
มันไม่ได้มีขั้นตอนตรวจทานจริง ๆ แต่แค่สร้างคำเดาใหม่ทุกครั้ง - คำขอของคุณไปชนกับองค์ประกอบภาพ
การลบมือออกหนึ่งข้างอาจทำให้ท่าทาง ซิลูเอต หรือสมดุลที่โมเดล “ชอบ” พังได้ มันเลยวนกลับไปสร้างโครงเดิมซ้ำ ๆ - มันถูกออกแบบมาให้ตอบอย่างมั่นใจเกินไป
หลายโมเดลตอบด้วยความมั่นใจสูงมาก แทนที่จะบอกว่า “ใช่ คุณพูดถูก มีมือที่สามจริง” มันกลับบอกว่า “มีสองมือ” แม้ว่าตาคุณจะเห็นต่างชัด ๆ - การแก้ไขไม่ได้แปลว่าแก้จริงเสมอไป
ขึ้นอยู่กับเครื่องมือ คำว่า “edit” อาจทำงานคล้าย “สร้างภาพใหม่ที่หน้าตาคล้ายเดิม” มากกว่า ซึ่งแปลว่าความผิดพลาดเดิมอาจย้อนกลับมาอีกเรื่อย ๆ
ข้อสรุปเชิงปฏิบัติสำหรับคนทำโปรดักต์
ถ้าคุณกำลังสร้างโปรดักต์ที่ใช้การสร้างภาพ คุณไม่ควรตั้งสมมติฐานว่า:
- หนึ่งพรอมต์ = หนึ่งผลลัพธ์ที่ถูกต้อง
- โมเดลจะทำตามคำขอแก้ไข
- โมเดลจะยอมรับด้วยซ้ำว่ามันผิด
พูดอีกแบบคือ: ให้มองผลลัพธ์ของภาพว่าเป็นเรื่องเชิงความน่าจะเป็น ไม่ใช่สิ่งที่กำหนดตายตัว
ถ้าคุณอยากเพิ่มอัตราความสำเร็จ โดยมากคุณต้องมีวิธีรับมือในระดับโปรดักต์:
- ข้อจำกัดที่ชัดเจน (pose reference, character sheet ที่สม่ำเสมอ)
- workflow ของ inpainting / masking ที่เป็นของจริง
- สร้างหลายแบบแล้วคัดเลือก
- ระบบตรวจสอบอัตโนมัติ (แม้แต่ heuristic ง่าย ๆ สำหรับมือและนิ้วก็ช่วยได้)
แต่ถึงอย่างนั้น… ผมก็ยังชอบโมเมนต์แบบนี้
มันน่าหงุดหงิดก็จริง แต่ก็ขำดีเหมือนกัน
AI สามารถสร้างงานภาพที่สวยมากได้ — แล้วจู่ ๆ ก็เติมมือที่สามเข้าไปแบบหน้าตาเฉย พร้อมยืนยันว่าคุณต่างหากที่มองผิด
และนี่แหละคือความวุ่นวายแบบ “AI ในโลกจริง” ที่ผมชอบหยิบมาเล่าระหว่างที่กำลังสร้างของ
ถ้าคุณสนใจ ผมกำลังบันทึกความเพี้ยนแบบนี้ไว้อีกหลายอย่างในโปรเจกต์ AI Anime Chatbot — ทั้งส่วนที่สนุก และ ส่วนที่ชวนปวดหัว