AI 상담 시뮬레이션 품질 비교

로컬 모델(qwen2.5:3b) vs GPT-5 — 2026년 4월 6일 배치 1 (1~200건) 분석

🤖

로컬 모델 평균 점수

2.0

qwen2.5:3b / 10점 만점

⚡

GPT-5 평균 점수

4.8

GPT-5 / 10점 만점

📈

점수 향상률

+140%

2.0 → 4.8점

📊

공통 평가 건수

180

배치 1 기준

📊 모델별 평균 점수 비교

⏱️ 처리 속도 비교 (배치 1 기준)

🏆 TOP 10 점수 상승 케이스