Kimi K2.5, 오픈소스 멀티모달 에이전트 스웜 공개
- •15조 개의 토큰으로 학습된 강력한 오픈소스 멀티모달 모델 Kimi K2.5 출시
- •100개의 하위 에이전트를 협업시키는 '에이전트 스웜' 기술로 처리 속도 4.5배 향상
- •비디오 기반 웹사이트 재구축 및 자율 시각적 디버깅 등 고난도 비주얼 코딩 성능 입증
Kimi K2.5는 전통적인 단일 모델 상호작용을 넘어 협업 중심의 '에이전트 스웜(Agent Swarm)' 아키텍처로 전환하며 오픈소스 AI 분야의 중대한 도약을 이뤄냈다. 특히 15조 개의 토큰으로 학습된 네이티브 멀티모달 파운데이션을 활용해 텍스트와 시각 자료를 정밀하게 처리하는 것이 특징이다. 이를 바탕으로 웹사이트 화면 녹화 영상을 실제 작동하는 코드로 변환하거나, 직접 Python 스크립트를 작성하고 실행해 복잡한 논리 퍼즐을 해결하는 등 고난도 소프트웨어 엔지니어링 작업을 자율적으로 수행할 수 있다.
핵심 혁신은 최대 100개의 하위 에이전트를 동시에 조율하는 모델의 능력에 있다. 인간이 구체적인 역할이나 워크플로를 정의해야 했던 기존 시스템과 달리, K2.5는 병렬 에이전트 강화학습을 통해 거대한 문제를 여러 개의 병렬 트랙으로 동적으로 분해한다. 이에 따라 작업을 하나씩 처리하던 순차적 방식에서 군집 형태의 실행 방식으로 전환됐으며, 그 결과 복잡한 연산 소요 시간을 4배 이상 단축했다. 이는 단순히 단일 모델의 크기를 키우는 대신 컴퓨팅 파워를 수평적으로 확장해 효율성을 극대화한 사례로 평가받는다.
개발팀은 이러한 협업 체계를 정교화하기 위해 병렬 워크플로에서 가장 긴 경로의 속도를 우선시하는 '임계 단계' 지표를 도입했다. 이는 AI가 멀티태스킹 능력을 갖추었음에도 불구하고 다시 느린 단계별 처리 방식으로 돌아가는 '직렬 붕괴' 현상을 효과적으로 방지한다. 실제로 이러한 기술력은 개발 환경에 통합되는 오픈소스 도구인 Kimi Code에 적용되었으며, 자율 시각 디버깅 및 문서 조회 기능을 제공하며 스웜 기반 소프트웨어 개발의 새로운 시대를 예고하고 있다.