PurplePrintAI
데모 체험
← 블로그 목록
PROOF2026.04.10 · 4분 읽기

AI가 점수 4.41을 받았는데 실제로 써보니 문제투성이였다

AI 모델 실험에서 높은 점수가 나와도 실제로 붙여보면 다른 문제가 드러날 수 있어요. 그래서 PurplePrint는 점수만이 아니라 실제 대화 구조와 사용자 경험을 같이 봐야 한다고 생각해요.

TL;DR

AI 모델 실험에서 높은 점수를 받은 조합을 실제 서비스에 붙여봤더니 문제투성이였어요. 그 경험 덕분에 점수는 참고 자료일 뿐이고, 실제 대화 흐름과 구조 준수는 따로 봐야 한다는 걸 더 분명하게 배웠어요.

처음 숫자만 보면 좋은 후보처럼 보였어요

4개 모델, 5개 프롬프트 변형, 3개 시나리오를 돌렸고 가장 높은 점수를 받은 조합은 점수 4.41에 keep 판정까지 받았어요. 보고서만 보면 바로 채택해도 될 것처럼 보였죠.

그런데 실제로 붙여보니 전혀 달랐어요

  • 여기까지 정리됐어요라고 하고 바로 다음 단계를 시작해버렸어요
  • 문서 포맷이 매번 달랐어요
  • 해요체라고 했는데 세요체가 섞였어요

점수표에서는 좋아 보였지만, 실제 사용자 경험에선 작은 어긋남이 바로 크게 느껴졌어요. 사용자가 문서를 열어보기 전에 다음 질문이 나오는 순간 UX는 깨져버리거든요.

이걸 발견한 건 점수가 아니라 실제 대화 내용을 읽어봤기 때문이에요

결국 중요한 건 분위기 점수만이 아니었어요. 구조를 지켰는지, 단계 전환이 안정적인지, 실제 서비스에 붙였을 때 UX가 보호되는지를 따로 봐야 했어요.

그래서 PurplePrint는 점수만으로 모델을 고르지 않으려 해요

실험 점수는 참고할 수 있어요. 하지만 실제 대화 흐름을 한 줄씩 읽어보지 않으면 놓치는 문제가 분명히 있어요. 그래서 저는 평가와 실측을 같이 봐야 한다고 생각해요.

좋은 점수는 좋은 시작일 수는 있지만, 좋은 사용자 경험을 보장하진 않아요.

내 아이디어로 직접 해보세요

10~20분 안에 “내가 뭘 만들려는지” 말할 수 있게 돼요.

데모 체험내 프로젝트 시작

Zero to Builders

혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.

오픈채팅방 참여하기 →

새 글 알림 받기

빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.

구독 상태를 확인하고 있어요.

다른 글도 읽어보세요

PROOF

아무것도 모르던 내 동생이 1.5시간 만에 웹사이트를 배포한 이야기

2026.03.29 · 6
PROOF

나는 왜 퇴사하는 팀원에게 아이디어로 만드는 법을 가르쳤는가

2026.03.29 · 6
PROOF

퍼플프린트 시스템으로 퍼플프린트 서비스를 만들고 있다

2026.04.10 · 4