[더파워 유연수 기자] AI가 복잡한 문제를 스스로 점검하며 푸는 능력이 중요해지는 가운데, 카카오가 한국어 논리에 특화된 하이브리드 멀티모달 언어모델을 내놓았다. 카카오는 지식 기반 일반 대화와 추론 모드를 모두 지원하는 자체 개발 신규 AI 모델 'Kanana-v-4b-hybrid'의 성능을 공개했다고 5일 밝혔다.
카카오는 이번 모델을 통해 가벼운 일상 대화부터 논리적 사고가 필요한 복잡한 문제 해결까지 하나의 모델로 처리할 수 있도록 했다. 지난해 7월 허깅페이스에 오픈소스로 공개한 'Kanana-1.5-v-3b'를 기반으로 개발됐으며, 단순 이미지 설명을 넘어 표·영수증·수학 문제 등 복합적인 정보를 종합·계산하고 스스로 검산하는 자기 점검 과정을 거치는 것이 특징이다. 이를 통해 AI 모델의 환각 현상을 줄이고 계산 실수나 조건 누락을 최소화해 복잡한 문제에서의 정답률을 크게 끌어올렸다는 설명이다.
모델 고도화를 위해 ▲기초 학습 ▲장문 사고 사슬(Long CoT) ▲오프라인 강화학습 ▲온라인 강화학습으로 이어지는 4단계 학습 절차도 적용했다. 특히 한국어 질문을 영어로 번역해 사고한 뒤 다시 번역하는 기존 글로벌 모델의 한계를 넘기 위해, 한국어 질문을 있는 그대로 이해하고 사고하도록 훈련해 한국어 논리 전개 능력을 강화했다. 그 결과 대학수학능력시험 사회탐구·수학 등에서 미묘한 조건을 놓치지 않고 높은 정답률을 기록했으며, 국내 교육 체계를 기반으로 한 AI 학력 평가 벤치마크 ‘KoNET’에서 92.8점을 얻었다.
성능 비교에서도 경쟁력을 입증했다. 카카오는 Qwen3-VL-4B, InternVL3.5-4B, GPT-5-nano 등 국내외 유사 크기 모델과의 벤치마크에서 과학·공학, 일반 시각 질의응답, 문서 이해 영역에서 높은 성능을 보였다고 밝혔다. 수학·과학 등 복잡한 추론이 필요한 영역과 일반 시각 이해 능력에서는 글로벌 모델을 뛰어넘는 결과도 확인했다.
카카오는 앞으로 사용자가 별도의 모델을 선택하지 않아도, AI가 질문의 복잡도를 스스로 판단해 일반 모드와 추론 모드를 자동 전환하는 형태로 모델을 고도화할 계획이다. 이를 통해 하나의 대화창에서 단순 질의와 복잡한 분석 요청을 자연스럽게 처리하면서, 연산 자원을 효율적으로 사용하는 비용 효율적 모델을 구현하는 것이 목표다.
카카오 김병학 카나나 성과리더는 “Kanana-v-4b-hybrid는 한국어 환경에서 가장 자연스럽고 정확하게 생각하고 답변할 수 있는 모델로, 일상과 복잡한 작업을 모두 하나의 AI에 맡길 수 있는 혁신적인 연구 성과”라며 “한국어에 특화된 높은 성능과 효율을 갖춘 자체 AI 모델 개발을 통해 글로벌 경쟁력을 높이고, 국내 AI 생태계 발전을 선도해 나가겠다”고 말했다.
카카오는 앞서 멀티모달 언어모델 'Kanana-o'와 'Kanana-v-embedding' 연구 성과를 공개하고, 에이전틱 AI 구현에 최적화된 언어모델 'Kanana-2'를 오픈소스로 내놓는 등 자체 기술 경쟁력을 바탕으로 국내 AI 연구 생태계 활성화에 기여하고 있다.
유연수 더파워 기자 news@thepowernews.co.kr