Khi AI tự thêm một bàn tay nữa rồi vẫn khăng khăng là mọi thứ hoàn toàn ổn

Bạn đã bao giờ nhìn chằm chằm vào một bức ảnh do AI tạo ra và nghĩ:

“Rốt cuộc cô gái anime này có mấy bàn tay vậy?”

Tôi thì có — và thật sự lúc đó tôi còn nghĩ chắc mình nhìn nhầm đến phát điên rồi. Trong ảnh rõ ràng có ba bàn tay… nhưng mô hình vẫn cứ khăng khăng rằng chỉ có hai.

Tôi đã yêu cầu nó xóa bàn tay thừa đó năm lần.
Không thay đổi gì cả.
Và điều buồn cười nhất là gì? Nó thậm chí còn không nói “oops”. Nó chỉ càng chắc giọng hơn với câu trả lời sai của mình.

Đó là một ví dụ rất điển hình cho cách ảo giác AI xuất hiện trong quá trình tạo ảnh — và vì sao “cứ bảo lại lần nữa đi” không phải lúc nào cũng hiệu quả.

“Ảo giác” trong hình ảnh trông như thế nào?

Trong văn bản, ảo giác là những thông tin bịa ra.
Trong hình ảnh, đó là giải phẫu sai và chi tiết được bịa thêm nhưng thoạt nhìn lại trông khá thuyết phục.

Một số ví dụ phổ biến:

ngón tay thừa / tay chân thừa
khớp nối không thể tồn tại
vật thể bị lặp lại
phụ kiện thiếu nhất quán (hoa tai thay đổi, logo méo đi)
bóng đổ kỳ lạ không khớp với nguồn sáng

Mô hình không biết rằng nó đang sai — nó chỉ dự đoán các pixel phù hợp với những mẫu mà nó đã học. Nếu “anime girl + pose + framing” thường đi cùng với một số hình dạng nhất định, nó có thể “hoàn thiện” bức ảnh theo cách trông có vẻ hợp lý, nhưng thực tế lại không đúng về mặt vật lý.

Vì sao mô hình không sửa, ngay cả khi bạn chỉ ra lỗi?

Đây là phần khiến nhiều người ngạc nhiên: ngay cả khi bạn mô tả lỗi một cách hoàn hảo, mô hình vẫn có thể không sửa được.

Có vài lý do:

Nó không thể “đếm” hay kiểm tra chi tiết một cách đáng tin cậy như con người.
Nó không thực sự chạy một bước kiểm tra nghiêm túc; mỗi lần chỉ tạo ra một phỏng đoán mới.
Yêu cầu của bạn xung đột với bố cục hình ảnh.
Bỏ đi một bàn tay có thể làm hỏng tư thế, đường nét tổng thể hoặc sự cân bằng mà mô hình “thích”, nên nó cứ tiếp tục dựng lại cùng một cấu trúc.
Nó được thiết kế để nghe có vẻ quá tự tin.
Nhiều mô hình trả lời với mức độ chắc chắn rất cao. Vì vậy thay vì nói “đúng, ở đây có bàn tay thứ ba”, nó lại nói “có hai bàn tay”, ngay cả khi mắt bạn nhìn thấy điều ngược lại.
Edit không phải lúc nào cũng là chỉnh sửa thật sự.
Tùy công cụ, “edit” có thể hoạt động gần giống “tạo lại một bức ảnh tương tự”, nghĩa là cùng một lỗi có thể quay lại hết lần này đến lần khác.

Bài học thực tế cho người xây sản phẩm

Nếu bạn đang làm một sản phẩm dùng công nghệ tạo ảnh, bạn không thể mặc định rằng:

một prompt = một kết quả đúng
mô hình sẽ làm theo yêu cầu chỉnh sửa
mô hình thậm chí sẽ thừa nhận lỗi

Nói cách khác: hãy xem đầu ra hình ảnh là thứ mang tính xác suất, không phải thứ mang tính tất định.

Nếu bạn muốn tỷ lệ thành công cao hơn, thường bạn sẽ cần các chiến thuật ở cấp độ sản phẩm:

ràng buộc mạnh hơn (tham chiếu pose, character sheet nhất quán)
workflow inpainting / masking thật sự
tạo nhiều phiên bản rồi chọn
kiểm tra tự động (ngay cả heuristic cơ bản cho tay và ngón tay cũng hữu ích)

Dù vậy… tôi vẫn thích những khoảnh khắc này

Khó chịu thì có khó chịu, nhưng đồng thời cũng rất buồn cười.
AI có thể tạo ra những hình ảnh tuyệt đẹp — rồi ngay sau đó thản nhiên bịa thêm một bàn tay thứ ba và còn khẳng định rằng bạn chỉ đang tưởng tượng ra nó.

Và đó chính là kiểu hỗn loạn “AI ngoài đời thực” mà tôi thích chia sẻ trong lúc xây dựng sản phẩm.

Nếu bạn thấy tò mò, tôi đang ghi lại thêm nhiều kiểu kỳ quặc như thế trong dự án AI Anime Chatbot của mình — cả những phần vui vẻ lẫn những phần bực bội.