PROOF2026.04.10 · 4분 읽기
4개 AI 모델에게 같은 질문을 던졌다 — 결과가 이렇게 다르다
같은 질문을 던져도 모델마다 점수, 속도, 비용, 실제 응답 결이 다르게 나와요. PurplePrint는 그래서 어떤 AI를, 왜, 얼마에 쓰는지까지 공개하려고 해요.
TL;DR
퍼플프린트AI에 어떤 AI를 쓸지 고르기 위해 같은 질문을 여러 모델에 던져봤어요. 점수, 속도, 비용이 모델마다 꽤 다르게 나왔고, 그래서 AI를 쓴다는 말은 결국 어떤 모델을 왜 얼마에 쓰느냐까지 같이 공개해야 의미가 있다고 느꼈어요.
같은 질문을 4개 모델에 던졌어요
질문은 같았어요. 취준생의 자기소개서 막막함을 해결하는 서비스를 설계해달라고 던졌고, 어떤 모델이 PurplePrint 구조에 더 잘 맞는지 비교해봤어요.
- •Gemini 2.5 Flash — 3.9점 / 9.9초 / 0.13원
- •Gemini 2.5 Flash-Lite — 3.9점 / 2.6초 / 0.04원
- •Mistral Small 3.2 — 3.6점 / 4.7초 / 0.03원
- •Qwen 3 32B (Groq) — 3.9점 / 2.8초 / 0.13원
재밌는 건 가장 비싼 모델이 가장 좋은 건 아니었다는 점이에요
Flash-Lite가 Flash와 같은 점수인데 훨씬 빠르고 더 쌌어요. 결국 비싼 모델을 붙인다고 무조건 더 좋은 사용자 경험이 나오는 건 아니라는 뜻이에요.
속도와 비용은 그냥 부가 지표가 아니에요
2.6초와 9.9초는 체감 차이가 꽤 커요. 비용도 세션 단위로 보면 작아 보여도 운영 규모가 커지면 바로 의미가 달라져요.
그래도 점수만 보면 안 돼요
실제 응답을 읽어보면 모델마다 결이 달라요. 그래서 PurplePrint는 숫자만 보고 모델을 고르기보다, 실제 대화 흐름과 UX까지 같이 보려고 해요.
AI를 쓴다는 말이 너무 추상적으로 들릴 때가 많아요. 저는 어떤 모델을 왜 얼마에 쓰는지까지 보여주는 게 훨씬 솔직한 방식이라고 생각해요.
Zero to Builders
혼자 만들다 막힐 때 물어보고, 다른 빌더의 설계 과정도 볼 수 있어요.
새 글 알림 받기
빌더를 위한 설계, 구현, 운영 이야기를 메일로 보내드려요.
구독 상태를 확인하고 있어요.