PROOF2026.04.10 · 4분 읽기

AI가 점수 4.41을 받았는데 실제로 써보니 문제투성이였다

AI 모델 실험에서 높은 점수가 나와도 실제로 붙여보면 다른 문제가 드러날 수 있어요. 그래서 PurplePrint는 점수만이 아니라 실제 대화 구조와 사용자 경험을 같이 봐야 한다고 생각해요.

TL;DR

AI 모델 실험에서 높은 점수를 받은 조합을 실제 서비스에 붙여봤더니 문제투성이였어요. 그 경험 덕분에 점수는 참고 자료일 뿐이고, 실제 대화 흐름과 구조 준수는 따로 봐야 한다는 걸 더 분명하게 배웠어요.

처음 숫자만 보면 좋은 후보처럼 보였어요

4개 모델, 5개 프롬프트 변형, 3개 시나리오를 돌렸고 가장 높은 점수를 받은 조합은 점수 4.41에 keep 판정까지 받았어요. 보고서만 보면 바로 채택해도 될 것처럼 보였죠.

점수표에서는 좋아 보였지만, 실제 사용자 경험에선 작은 어긋남이 바로 크게 느껴졌어요. 사용자가 문서를 열어보기 전에 다음 질문이 나오는 순간 UX는 깨져버리거든요.

결국 중요한 건 분위기 점수만이 아니었어요. 구조를 지켰는지, 단계 전환이 안정적인지, 실제 서비스에 붙였을 때 UX가 보호되는지를 따로 봐야 했어요.

실험 점수는 참고할 수 있어요. 하지만 실제 대화 흐름을 한 줄씩 읽어보지 않으면 놓치는 문제가 분명히 있어요. 그래서 저는 평가와 실측을 같이 봐야 한다고 생각해요.

좋은 점수는 좋은 시작일 수는 있지만, 좋은 사용자 경험을 보장하진 않아요.

내 아이디어로 직접 해보세요

10~20분 안에 “내가 뭘 만들려는지” 말할 수 있게 돼요.

Zero to Builders

혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.

새 글 알림 받기

빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.

구독 상태를 확인하고 있어요.