Sakana AI, 대형 모델의 '일본 사양' 최적화 성공
- •Sakana AI가 사후 학습 기술 'Namazu'를 발표하고 독자적인 채팅 서비스 공개
- •Llama, DeepSeek 등 해외 대형 모델을 일본의 문화적·사회적 맥락에 최적화
- •모델의 기존 성능을 유지하면서 정치적 답변 거부와 편향성 문제 해결
AI 개발의 최전선에서는 현재 방대한 계산 자원이 필요한 '사전 학습' 주도권이 미국과 중국의 빅테크 기업으로 집중되는 추세다. 이러한 흐름 속에서 도쿄를 거점으로 하는 Sakana AI는 공개된 고성능 '오픈 웨이트 모델'을 전략적으로 활용해, 각국의 문화와 가치관 및 보안 요구사항에 맞춰 최적화하는 '사후 학습' 기술의 중요성을 제창했다. 이에 따른 기술 실증의 첫 단계로 일본 사양의 프로토타입 모델 시리즈인 'Namazu(알파 버전)'와 이를 탑재한 'Sakana Chat'이 전격 발표됐다.
Namazu 시리즈의 가장 큰 특징은 Llama-3.1-405B나 DeepSeek-V3.1과 같은 세계 최고 수준 베이스 모델의 추론 및 코딩 능력을 손상하지 않으면서도 일본 특유의 맥락에 완벽히 적응했다는 점에 있다. 해외에서 개발된 모델은 개발 지역의 이데올로기나 정보 통제에서 기인한 편향성, 혹은 정치적으로 민감한 주제에 대한 답변 거부라는 한계가 불가피하게 포함된다. Sakana AI는 독자적인 데이터셋을 활용한 사후 학습을 통해 객관적 사실에 기반한 다각적인 응답을 구현했으며, 모델의 과도한 '자기 검열' 문제를 획기적으로 개선하는 데 성공했다.
구체적인 성과를 살펴보면, 베이스 모델인 DeepSeek-V3.1-Terminus가 특정 질문에 대해 72%라는 높은 비율로 답변을 거부했던 것과 달리 사후 학습을 거친 Namazu 모델에서는 거부율이 거의 0%에 가깝게 낮아졌다. 이는 기술적 접근을 통해 외부적인 제약을 제거함으로써 모델 본연의 잠재력을 사용자가 안전하고 효과적으로 끌어낼 수 있음을 시사한다. 또한 웹 검색 기능과의 통합을 통해 최신 뉴스 정보를 실시간으로 수집하고 답변에 반영하는 능력을 갖췄으며, 단순한 대화 엔진을 넘어 실용적인 도구로서의 측면을 강조했다.
Sakana AI는 향후 복수의 모델을 최적으로 제어하는 기술과 에이전트 기술을 통합하여 더욱 고도화된 AI 솔루션을 제공할 계획이다. 이번 Namazu 시리즈의 공개는 거대한 기반 모델을 각국의 니즈에 맞춰 효과적으로 길들이는 유력한 방법론을 제시했다는 평가를 받는다. 기술의 민주화가 가속화되는 가운데, 이러한 사후 학습 기반의 로컬라이징 기술은 일본이 독자적인 AI 경쟁력을 유지하기 위한 핵심 열쇠가 될 것으로 보인다.