국산 LLM의 새로운 지평: NII의 'LLM-jp-4' 공개
- •일본 국립정보학연구소(NII)가 완전히 새로 학습한 국산 LLM 'LLM-jp-4'를 오픈소스로 공개했다.
- •약 12조 토큰으로 학습을 수행해 일부 작업에서 GPT-4o를 능가하는 일본어 성능을 입증했다.
- •계산 효율을 극대화한 혼합 전문가 모델(MoE) 구조의 8B 및 32B 모델을 선보였다.
인공지능의 진화가 가속화되는 가운데 일본 국립정보학연구소(NII)가 주목할 만한 성과를 내놓았다. 이번에 공개된 LLM-jp-4 시리즈는 단순한 모델 업데이트를 넘어 일본어라는 언어적 특성을 깊이 이해하고 밑바닥부터 학습을 쌓아 올린, 이른바 '순수 국산 지성'의 결정체라 할 수 있다.
기존의 대규모 언어 모델(LLM)들은 영어 기반의 데이터셋으로 구축되는 경우가 많아 일본어의 미묘한 뉘앙스나 문화적 배경을 완벽히 이해하는 데 한계가 있었다. NII의 이번 프로젝트는 일본어 웹 데이터와 국내 문헌을 중심으로 약 12조 토큰이라는 방대한 데이터를 학습시켜 이러한 기술적 장벽을 돌파하고자 했다. 연구자와 기업이 직접 기반 모델을 구축하고 투명성을 확보하는 노력은 국가 차원의 AI 주권이라는 측면에서도 매우 중요한 의미를 지닌다.
특히 눈길을 끄는 점은 혼합 전문가 모델(MoE) 아키텍처의 도입이다. 이 구조는 모델의 전체 매개변수를 항상 구동하는 대신 특정 입력에 최적화된 전문가 구성 요소만을 동적으로 활성화한다. 이를 통해 모델의 전체 규모를 유지하면서도 추론 시 소비되는 계산 비용을 극적으로 절감할 수 있다.
실제로 공개된 32B-A3B 모델은 효율적인 설계를 바탕으로 일부 지표에서 GPT-4o 같은 세계 최고 수준의 모델을 넘어서는 성과를 기록했다. 이는 한정된 자원을 운용하는 일본 내 기업과 연구소들에게 매우 실용적인 선택지가 될 것이다. 무엇보다 이번 모델이 오픈소스로 공개되었다는 점은 현재의 폐쇄적인 AI 개발 환경에서 시사하는 바가 크다.
이번 공개를 통해 연구 커뮤니티는 모델 내부를 검증하고 개선에 직접 참여할 수 있는 환경을 갖게 되었다. 대학생과 개발자들이 최첨단 모델 구조를 학습하고 자신의 작업에 맞게 조정하는 과정은 장기적으로 일본의 차세대 AI 인재 육성에 기여할 것으로 기대된다. NII는 2026년을 목표로 더욱 거대한 모델 개발을 계획 중이며, 이번에 발표된 경량 모델들은 향후 스마트폰이나 에지 디바이스 등 다양한 기기에서 폭넓게 활용될 전망이다.