미스트랄 AI, 오픈소스 코딩 모델 데브스트랄 2 발표
- •미스트랄 AI가 123B와 24B 파라미터로 구성된 코딩 특화 모델군인 데브스트랄 2를 공식 출시했다.
- •플래그십 모델은 SWE-bench 검증에서 72.2%의 성공률을 기록하며 딥시크 V3.2 등 주요 경쟁 모델을 압도했다.
- •터미널 기반의 오픈소스 도구인 바이브 CLI를 함께 공개하여 AI 에이전트의 자율적인 코드 관리 환경을 구축했다.
미스트랄 AI가 코딩 분야에 특화된 새로운 인공지능 모델 제품군인 '데브스트랄 2(Devstral 2)'를 선보이며 개발 생태계의 혁신을 예고했다. 이번 제품군의 주력 모델인 123B 대규모 언어모델(LLM)은 256,000개의 토큰을 한 번에 처리할 수 있는 방대한 컨텍스트 윈도우를 갖추어 복잡하고 긴 소스 코드의 흐름을 정밀하게 파악하는 능력이 탁월하다. 특히 실제 소프트웨어 개발 과정에서 발생하는 문제를 해결하는 능력을 측정하는 SWE-bench 검증 테스트에서 72.2%의 높은 성공률을 달성하며, 현존하는 오픈소스 모델 중 최상위권의 성능을 입증했다.
함께 공개된 '데브스트랄 스몰 2'는 24B 파라미터 규모로 설계되어 일반 가정용 컴퓨터 환경에서도 무리 없이 구동이 가능하다는 점이 큰 특징이다. 이에 따라 개별 개발자들은 값비싼 데이터 센터 장비를 갖추지 않고도 로컬 환경에서 강력한 인공지능 코딩 어시스턴트를 자유롭게 활용할 수 있게 되었다. 실제로 이러한 소형 파운데이션 모델의 활용은 클라우드 기반 서비스와 비교했을 때 소스 코드의 외부 유출을 방지하여 보안성을 높이고 운영 비용을 획기적으로 낮추는 실질적인 대안으로 주목받고 있다.
또한 미스트랄 AI는 개발자의 작업 효율을 극대화하기 위해 오픈소스 터미널 도구인 '바이브 CLI(Vibe CLI)'를 새롭게 도입했다. 해당 도구는 스스로 목표를 설정하고 독립적인 실행 단계를 밟는 AI 에이전트 역할을 수행하며, 전체 코드베이스를 스스로 탐색하거나 파일을 직접 수정하여 버그를 해결하고 노후화된 코드를 최신 상태로 갱신한다. 또한 특정 프로그래밍 언어나 기업 내부의 특수한 워크플로우에 최적화할 수 있도록 모델의 미세 조정(Fine-tuning) 기능을 지원하여 각 산업 영역에 맞춘 전문적인 활용이 가능하다.
성능 평가 결과 데브스트랄 2는 앤스로픽의 클로드 3.5 소네트와 같은 기존 유료 모델과 비교하여 매우 뛰어난 비용 효율성을 보여주는 것으로 나타났다. 다만 인간의 주관적인 선호도를 반영하는 테스트에서는 일부 폐쇄형 모델에 비해 소폭 낮은 점수를 기록하기도 했으나, 기술적 과제의 실행 능력과 오픈소스 기반의 높은 접근성은 향후 소프트웨어 개발 환경에 큰 기여를 할 것으로 전망된다. 한편 이번 출시는 고성능 코딩 전용 AI의 대중화를 가속화하고 기업들의 개발 생산성을 한 단계 끌어올리는 중요한 전환점이 될 것으로 평가받고 있다.