PROOF2026.04.10 · 4분 읽기
AI가 점수 4.41을 받았는데 실제로 써보니 문제투성이였다
AI 모델 실험에서 높은 점수가 나와도 실제로 붙여보면 다른 문제가 드러날 수 있어요. 그래서 PurplePrint는 점수만이 아니라 실제 대화 구조와 사용자 경험을 같이 봐야 한다고 생각해요.
TL;DR
AI 모델 실험에서 높은 점수를 받은 조합을 실제 서비스에 붙여봤더니 문제투성이였어요. 그 경험 덕분에 점수는 참고 자료일 뿐이고, 실제 대화 흐름과 구조 준수는 따로 봐야 한다는 걸 더 분명하게 배웠어요.
처음 숫자만 보면 좋은 후보처럼 보였어요
4개 모델, 5개 프롬프트 변형, 3개 시나리오를 돌렸고 가장 높은 점수를 받은 조합은 점수 4.41에 keep 판정까지 받았어요. 보고서만 보면 바로 채택해도 될 것처럼 보였죠.
그런데 실제로 붙여보니 전혀 달랐어요
- •여기까지 정리됐어요라고 하고 바로 다음 단계를 시작해버렸어요
- •문서 포맷이 매번 달랐어요
- •해요체라고 했는데 세요체가 섞였어요
점수표에서는 좋아 보였지만, 실제 사용자 경험에선 작은 어긋남이 바로 크게 느껴졌어요. 사용자가 문서를 열어보기 전에 다음 질문이 나오는 순간 UX는 깨져버리거든요.
이걸 발견한 건 점수가 아니라 실제 대화 내용을 읽어봤기 때문이에요
결국 중요한 건 분위기 점수만이 아니었어요. 구조를 지켰는지, 단계 전환이 안정적인지, 실제 서비스에 붙였을 때 UX가 보호되는지를 따로 봐야 했어요.
그래서 PurplePrint는 점수만으로 모델을 고르지 않으려 해요
실험 점수는 참고할 수 있어요. 하지만 실제 대화 흐름을 한 줄씩 읽어보지 않으면 놓치는 문제가 분명히 있어요. 그래서 저는 평가와 실측을 같이 봐야 한다고 생각해요.
좋은 점수는 좋은 시작일 수는 있지만, 좋은 사용자 경험을 보장하진 않아요.
Zero to Builders
혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.
새 글 알림 받기
빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.
구독 상태를 확인하고 있어요.