바이두 ERNIE 5.0 공개, 1조 파라미터로 여는 통합 AI 시대
- •1조 파라미터 규모의 통합 모델 ERNIE 5.0이 멀티모달 이해 및 생성 분야에 데뷔했다.
- •울트라 스파스 혼합 전문가 모델(MoE) 구조를 통해 텍스트와 시청각 데이터를 효율적으로 처리한다.
- •탄력적 훈련 방식을 도입해 다양한 하드웨어 환경에 최적화된 하위 모델군을 생성할 수 있다.
ERNIE 5.0은 파운데이션 모델 진화의 중요한 이정표로, 1조 개에 달하는 파라미터를 갖춘 거대 모델이자 이해와 생성 사이의 장벽을 허문 혁신적인 결과물이다. 이 모델은 설계 단계부터 네이티브 자기회귀 시스템으로 구축되었으며, 텍스트와 이미지, 영상 등 서로 다른 데이터를 단일한 '다음 토큰 그룹 예측' 작업으로 처리한다. 이에 따라 모델은 각 모달리티별로 별도의 모듈을 사용하는 대신, 하나의 통합된 프레임워크 안에서 다양한 입력을 유연하고 응집력 있게 소화할 수 있게 되었다.
기술적 핵심은 울트라 스파스 혼합 전문가 모델(MoE) 아키텍처에 있다. 이 설계는 특정 작업에 특화된 '전문가'들을 활용하는데, 기존 모델과 달리 데이터의 형식에 구애받지 않는 방식으로 전문가를 배정한다. 즉, 데이터의 포맷이 아니라 복잡도에 따라 내부 연산 경로를 동적으로 선택하는 방식이다. 또한 대규모 배포 시 발생하는 막대한 비용 문제를 해결하기 위해 '탄력적 훈련' 패러다임을 도입했다. 이를 통해 단 한 번의 사전 훈련만으로도 연산 성능이나 메모리 제한이 있는 기기에서 사용할 수 있는 다양한 크기와 속도의 하위 모델들을 동시에 생산할 수 있다.
한편, 이처럼 거대한 규모의 멀티모달 혼합 전문가 모델(MoE) 시스템에 강화 학습을 적용하는 과정에서는 학습 안정성이라는 고난도 과제가 뒤따랐다. 이번 기술 보고서는 연구팀이 이러한 허들을 어떻게 극복하고 일관된 성능을 확보했는지 상세히 다루고 있다. 결과적으로 ERNIE 5.0은 인간 소통의 모든 영역을 처리할 수 있는 통합 AI 시스템을 밑바닥부터 구축하는 방식에 있어 새로운 기준점을 제시한 것으로 평가받는다.