[더파워 유연수 기자] 삼성전자는 자체 개발한 AI 업무 생산성 벤치마크 '트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)'를 공개했다고 25일 밝혔다.
'트루벤치'는 삼성전자 DX부문 선행 연구조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로, AI 모델의 실제 업무 생산성 성능을 정밀하게 평가한다. 기존 벤치마크가 영어 중심의 제한된 대화 환경에 치우친 반면, '트루벤치'는 연속 대화와 다양한 언어 환경, 실제 오피스 업무를 기반으로 한 평가를 특징으로 한다.
이번 벤치마크는 콘텐츠 생성, 데이터 분석, 문서 요약·번역, 연속 대화 등 기업에서 자주 활용되는 10개 카테고리, 46개 업무, 2485개 세부 항목으로 구성됐다. 사용자는 짧은 요청부터 최대 2만 자 분량의 문서 요약까지 폭넓은 시나리오로 모델 성능을 비교할 수 있으며, 최대 5개 모델을 동시에 평가해 효율성과 생산성을 확인할 수 있다.
평가 결과는 전체 점수뿐 아니라 카테고리별 세부 점수까지 제공되며, 응답 결과의 평균 길이 등 효율성 지표도 함께 공개된다. 특히 영어·한국어·일본어·중국어·스페인어 등 12개 언어를 지원해 글로벌 환경에 맞춘 다국어 및 교차 언어 번역 성능 평가도 가능하다.
삼성전자는 '트루벤치'의 데이터 샘플과 모델별 평가 결과 리더보드를 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개했다. 또한 AI가 평가 기준을 검증하는 교차 검증 방식을 도입해 오류와 편향을 최소화하고 객관성을 확보했다.
전경훈 삼성전자 DX부문 CTO 겸 삼성리서치 사장은 “삼성리서치는 실제 적용 사례를 기반으로 한 차별화된 생산성 AI 기술 경쟁력을 확보하고 있다”며 “트루벤치 공개를 통해 생산성 평가 기준을 정립하고 삼성전자의 기술 리더십을 강화해 나가겠다”고 말했다.