Cohere, 소프트웨어 엔지니어링 전용 North Mini Code 공개
- •Cohere가 에이전트 기반 코딩 작업을 위해 30B 파라미터 규모의 희소 전문가 혼합(MoE) 모델인 North Mini Code를 출시했다.
- •해당 모델은 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 유사한 규모의 여러 모델을 상회하는 성능을 입증했다.
- •검증 가능한 보상을 활용한 강화학습(RLVR)을 통해 Terminal-Bench v2 성능은 7.9%, SWE-Bench 성능은 3.0% 향상되었다.
Cohere는 2026년 6월 9일, 에이전트 기반 소프트웨어 엔지니어링에 최적화된 30B 파라미터 규모의 희소 전문가 혼합(Mixture-of-Experts, MoE) 모델인 North Mini Code를 공개했다. Apache 2.0 라이선스로 배포되는 이 모델은 토큰당 3B의 활성 파라미터를 사용하며, 인터리브 슬라이딩 윈도우와 글로벌 셀프 어텐션 메커니즘을 결합했다. 구조적으로는 128개의 전문가 중 8개를 토큰당 활성화하는 방식을 취하며, SwiGLU 활성화 함수와 디코더 전용 트랜스포머 구조를 채택했다.
학습 과정은 2단계 지도 미세 조정(SFT)을 거친 후, 검증 가능한 보상을 활용한 강화학습(RLVR)으로 이어진다. 첫 번째 단계에서는 코드 데이터 70%, 도구 활용 데이터 43%로 구성된 혼합 데이터를 사용하며, 두 번째 단계에서는 45억 개의 고품질 에이전트 및 추론 중심 샘플을 집중적으로 학습했다. 개발팀은 약 5,000개의 저장소에서 확보한 7만 건 이상의 검증 가능한 작업을 활용했으며, SWE-Bench 및 SWE-Bench-Pro 데이터셋과의 중복을 제거해 데이터 누출을 원천 차단했다. 각 SFT 단계에는 64K 및 128K의 컨텍스트 길이를 적용했다.
North Mini Code는 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 Qwen3.5(35B-A3B) 및 Gemma 4(26B-A4B)와 같은 기존 모델들을 앞섰다. SFT 최종 체크포인트는 SWE-Bench Verified에서 80.2% pass@10, Terminal-Bench v2에서 55.1% pass@10의 성능을 달성했다. 이후 RLVR 과정을 통해 Terminal-Bench v2의 pass@1 성능은 7.9%, SWE-Bench는 3.0% 개선되었다. 85개 샘플에 대한 인간 중심의 쌍대 평가 결과, 최종 모델은 SFT 전용 모델 대비 코드 편집 작업에서 66.1%의 승률을 보였다. 또한 SWE-Agent 및 mini-SWE-Agent를 포함한 다양한 환경에서 테스트를 거쳐 모델의 안정성을 검증했다.