멀티모달 모델 내재화 착수…한국어·한국 문화 맥락 이해 강화에 무게
[더파워 류동우 기자] 네이버가 멀티모달 인공지능(AI)의 핵심 모듈인 비전 인코더를 자체 기술로 전환하며 독자성 논란 정리에 나섰다.
17일 IT 업계에 따르면 네이버클라우드는 지난달 초 자체 비전 인코더 개발을 마치고, 향후 개발하는 멀티모달 모델 전반에 이를 적용하기 위한 내재화 작업에 착수했다.
비전 인코더는 이미지와 영상 정보를 AI가 이해할 수 있는 형태로 변환하는 기술로, 텍스트·이미지·음성·영상을 함께 처리하는 멀티모달 모델에서 시각 정보를 해석하는 역할을 맡는다.
네이버클라우드가 이번에 개발한 인코더는 기존 자체 기술인 ‘VUClip’보다 성능을 끌어올린 것으로 전해졌으며, 오픈소스 생태계에서 활용성이 검증된 상위권 모델 인코더와 유사한 수준의 성능을 확보한 것으로 알려졌다.
이번 조치는 올해 초 정부 주도의 ‘독자 AI 파운데이션 모델’ 프로젝트 참여 과정에서 불거진 외산 인코더 활용 논란과도 맞닿아 있다. 당시 네이버클라우드는 자사 멀티모달 모델 ‘하이퍼클로바X 시드 32B 싱크’에 알리바바의 ‘큐웬 2.5’ 비전 인코더와 일부 가중치를 차용했다는 지적을 받았고, 학습 초기 단계부터 자체 기술로 구축해야 한다는 ‘프롬 스크래치’ 원칙에 어긋난다는 비판이 제기됐다.
네이버클라우드는 당시 비전 인코더는 교체 가능한 영역이라는 입장을 내놨고, 이번에 자체 인코더를 개발하면서 향후 멀티모달 전략 전반의 독자성을 강화하는 방향으로 선회한 것으로 풀이된다. 다만 이미 오픈소스로 배포된 ‘하이퍼클로바X 시드 32B 싱크’의 인코더를 새 모델로 교체할지는 아직 정해지지 않은 것으로 전해졌다.
새 비전 인코더는 학습 단계부터 한국어 기반으로 훈련돼 이미지와 한국어를 별도 번역 없이 직접 연결하는 구조를 갖춘 것이 특징이다. 네이버클라우드 측은 한국의 지리와 문화, 고유명사가 포함된 시각 데이터를 다룰 때 정보 왜곡을 줄이고 한국적 맥락 이해도를 높일 수 있다는 점을 차별화 포인트로 제시했다.
류동우 더파워 기자 rdw2026@thepowernews.co.kr