AI가 손을 하나 더 만들어 놓고도 괜찮다고 우길 때

AI가 만든 이미지를 뚫어지게 보다가 이런 생각이 든 적 있나요?

“이 애니메이션 소녀, 손이 몇 개인 거지?”

저는 있었습니다. 진심으로 제가 잘못 본 건가 싶을 정도였어요. 이미지에는 분명히 손이 세 개 있었는데, 모델은 계속 손이 두 개뿐이라고 우겼거든요.

여분의 손을 지워 달라고 다섯 번이나 요청했습니다.
그런데도 전혀 달라지지 않았어요.
더 웃긴 건 뭔지 아세요? “아, 실수네요”라고도 하지 않았다는 겁니다. 오히려 더 확신에 차 있었죠.

이건 AI 환각이 이미지 생성에서 어떻게 드러나는지 보여 주는 아주 좋은 예입니다. 그래서 “그냥 한 번 더 말하면 되겠지”가 항상 통하지 않는 겁니다.

이미지에서 보이는 “환각”이란

텍스트에서 환각은 사실이 아닌 내용을 그럴듯하게 만들어 내는 것입니다.
이미지에서는 잘못된 해부학과 지어낸 디테일이 환각입니다. 처음 보면 진짜처럼 보인다는 점이 더 문제죠.

흔한 예시는 이렇습니다.

손가락이 더 많다 / 팔다리가 하나 더 있다
불가능한 관절 구조
중복된 물체
일관성이 없는 액세서리(귀걸이가 바뀌거나 로고가 뒤틀림)
광원과 맞지 않는 이상한 그림자

모델은 자신이 틀렸다는 걸 알지 못합니다. 그저 학습한 패턴과 맞아 보이는 픽셀을 예측할 뿐이죠. 예를 들어 “애니메이션 소녀 + 포즈 + 프레이밍”이 특정 형태와 자주 연결돼 있다면, 보기에는 그럴듯하지만 물리적으로는 말이 안 되는 방식으로 이미지를 “완성”해 버릴 수 있습니다.

왜 지적해도 모델은 잘 고치지 못할까

이 부분이 많은 사람을 놀라게 합니다. 오류를 아주 정확하게 설명해도 모델이 제대로 수정하지 못하는 경우가 있다는 거죠.

이유는 몇 가지가 있습니다.

사람처럼 세부 사항을 정확하게 “세거나” 검증하지 못합니다.
실제 점검 과정을 거치는 게 아니라, 매번 새로운 추측을 만들어 내는 쪽에 가깝습니다.
수정 요청이 이미지의 구도와 충돌합니다.
손 하나를 없애면 포즈나 실루엣, 혹은 모델이 “선호하는” 균형이 무너질 수 있어서 같은 구조를 다시 만들어 내곤 합니다.
설계상 지나치게 확신에 차 보이도록 만들어져 있습니다.
많은 모델이 굉장히 자신 있게 답합니다. 그래서 “맞아요, 세 번째 손이 있네요” 대신 “손은 두 개입니다”라고 말하죠. 눈으로 보면 분명한데도요.
편집이 항상 진짜 편집은 아닙니다.
도구에 따라 “편집”은 사실상 “비슷한 이미지를 다시 생성”하는 방식에 가까울 수 있습니다. 그래서 같은 실수가 계속 돌아옵니다.

제품을 만드는 사람에게 필요한 현실적인 교훈

이미지 생성을 쓰는 제품을 만든다면, 다음과 같은 가정을 해서는 안 됩니다.

프롬프트 하나 = 정답 하나
모델이 수정 요청을 그대로 따른다
모델이 실수를 인정한다

즉, 이미지 출력은 결정론적이라기보다 확률적인 것으로 다뤄야 합니다.

성공률을 높이고 싶다면 보통 제품 레벨의 전략이 필요합니다.

강한 제약 조건(포즈 레퍼런스, 일관된 캐릭터 시트)
실제 inpainting / masking 워크플로
여러 장 생성 후 선택
자동 검사(손과 손가락을 잡아내는 기본적인 휴리스틱만 있어도 도움이 됩니다)

그래도… 저는 이런 순간이 좋습니다

짜증나는 동시에, 또 꽤 웃기거든요.
AI는 정말 멋진 그림을 만들 수 있으면서도, 아무렇지도 않게 세 번째 손을 만들어 놓고는 당신이 잘못 본 거라고 우길 수 있습니다.

그리고 바로 그런 “현실의 AI” 같은 혼란을 저는 만들면서 공유하는 걸 좋아합니다.

궁금하다면, 저는 이런 이상한 사례들을 AI Anime Chatbot 프로젝트에 계속 기록하고 있습니다. 재미있는 부분도 그리고 답답한 부분도 모두요.