이 기사의 핵심 내용은?

Cohere가 에이전트 기반 코딩 작업을 위해 30B 파라미터 규모의 희소 전문가 혼합(MoE) 모델인 North Mini Code를 출시했다. 해당 모델은 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 유사한 규모의 여러 모델을 상회하는 성능을 입증했다. 검증 가능한 보상을 활용한 강화학습(RLVR)을 통해 Terminal-Bench v2 성능은 7.9%, SWE-Bench 성능은 3.0% 향상되었다.

Cohere, 소프트웨어 엔지니어링 전용 North Mini Code 공개

•Cohere가 에이전트 기반 코딩 작업을 위해 30B 파라미터 규모의 희소 전문가 혼합(MoE) 모델인 North Mini Code를 출시했다.
•해당 모델은 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 유사한 규모의 여러 모델을 상회하는 성능을 입증했다.
•검증 가능한 보상을 활용한 강화학습(RLVR)을 통해 Terminal-Bench v2 성능은 7.9%, SWE-Bench 성능은 3.0% 향상되었다.

•Cohere가 에이전트 기반 코딩 작업을 위해 30B 파라미터 규모의 희소 전문가 혼합(MoE) 모델인 North Mini Code를 출시했다.
•해당 모델은 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 유사한 규모의 여러 모델을 상회하는 성능을 입증했다.
•검증 가능한 보상을 활용한 강화학습(RLVR)을 통해 Terminal-Bench v2 성능은 7.9%, SWE-Bench 성능은 3.0% 향상되었다.

Cohere는 2026년 6월 9일, 에이전트 기반 소프트웨어 엔지니어링에 최적화된 30B 파라미터 규모의 희소 전문가 혼합(Mixture-of-Experts, MoE) 모델인 North Mini Code를 공개했다. Apache 2.0 라이선스로 배포되는 이 모델은 토큰당 3B의 활성 파라미터를 사용하며, 인터리브 슬라이딩 윈도우와 글로벌 셀프 어텐션 메커니즘을 결합했다. 구조적으로는 128개의 전문가 중 8개를 토큰당 활성화하는 방식을 취하며, SwiGLU 활성화 함수와 디코더 전용 트랜스포머 구조를 채택했다.

학습 과정은 2단계 지도 미세 조정(SFT)을 거친 후, 검증 가능한 보상을 활용한 강화학습(RLVR)으로 이어진다. 첫 번째 단계에서는 코드 데이터 70%, 도구 활용 데이터 43%로 구성된 혼합 데이터를 사용하며, 두 번째 단계에서는 45억 개의 고품질 에이전트 및 추론 중심 샘플을 집중적으로 학습했다. 개발팀은 약 5,000개의 저장소에서 확보한 7만 건 이상의 검증 가능한 작업을 활용했으며, SWE-Bench 및 SWE-Bench-Pro 데이터셋과의 중복을 제거해 데이터 누출을 원천 차단했다. 각 SFT 단계에는 64K 및 128K의 컨텍스트 길이를 적용했다.

North Mini Code는 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 Qwen3.5(35B-A3B) 및 Gemma 4(26B-A4B)와 같은 기존 모델들을 앞섰다. SFT 최종 체크포인트는 SWE-Bench Verified에서 80.2% pass@10, Terminal-Bench v2에서 55.1% pass@10의 성능을 달성했다. 이후 RLVR 과정을 통해 Terminal-Bench v2의 pass@1 성능은 7.9%, SWE-Bench는 3.0% 개선되었다. 85개 샘플에 대한 인간 중심의 쌍대 평가 결과, 최종 모델은 SFT 전용 모델 대비 코드 편집 작업에서 66.1%의 승률을 보였다. 또한 SWE-Agent 및 mini-SWE-Agent를 포함한 다양한 환경에서 테스트를 거쳐 모델의 안정성을 검증했다.

Cohere는 2026년 6월 9일, 에이전트 기반 소프트웨어 엔지니어링에 최적화된 30B 파라미터 규모의 희소 전문가 혼합(Mixture-of-Experts, MoE) 모델인 North Mini Code를 공개했다. Apache 2.0 라이선스로 배포되는 이 모델은 토큰당 3B의 활성 파라미터를 사용하며, 인터리브 슬라이딩 윈도우와 글로벌 셀프 어텐션 메커니즘을 결합했다. 구조적으로는 128개의 전문가 중 8개를 토큰당 활성화하는 방식을 취하며, SwiGLU 활성화 함수와 디코더 전용 트랜스포머 구조를 채택했다.

학습 과정은 2단계 지도 미세 조정(SFT)을 거친 후, 검증 가능한 보상을 활용한 강화학습(RLVR)으로 이어진다. 첫 번째 단계에서는 코드 데이터 70%, 도구 활용 데이터 43%로 구성된 혼합 데이터를 사용하며, 두 번째 단계에서는 45억 개의 고품질 에이전트 및 추론 중심 샘플을 집중적으로 학습했다. 개발팀은 약 5,000개의 저장소에서 확보한 7만 건 이상의 검증 가능한 작업을 활용했으며, SWE-Bench 및 SWE-Bench-Pro 데이터셋과의 중복을 제거해 데이터 누출을 원천 차단했다. 각 SFT 단계에는 64K 및 128K의 컨텍스트 길이를 적용했다.

North Mini Code는 Artificial Analysis 코딩 인덱스에서 33.4점을 기록하며 Qwen3.5(35B-A3B) 및 Gemma 4(26B-A4B)와 같은 기존 모델들을 앞섰다. SFT 최종 체크포인트는 SWE-Bench Verified에서 80.2% pass@10, Terminal-Bench v2에서 55.1% pass@10의 성능을 달성했다. 이후 RLVR 과정을 통해 Terminal-Bench v2의 pass@1 성능은 7.9%, SWE-Bench는 3.0% 개선되었다. 85개 샘플에 대한 인간 중심의 쌍대 평가 결과, 최종 모델은 SFT 전용 모델 대비 코드 편집 작업에서 66.1%의 승률을 보였다. 또한 SWE-Agent 및 mini-SWE-Agent를 포함한 다양한 환경에서 테스트를 거쳐 모델의 안정성을 검증했다.