이 기사의 핵심 내용은?

daVinci-Dev, 정적 코드를 넘어 동적 개발 환경을 학습하는 '에이전틱 미드트레이닝' 도입 72B 모델, 740억 개 미만의 토큰만으로 SWE-Bench Verified 58.5% 달성 SII-GAIR, 고성능 코딩 에이전트 개발을 위해 데이터셋 및 레시피 전면 오픈소스화

daVinci-Dev: 에이전틱 AI로 여는 소프트웨어 공학의 미래

•daVinci-Dev, 정적 코드를 넘어 동적 개발 환경을 학습하는 '에이전틱 미드트레이닝' 도입
•72B 모델, 740억 개 미만의 토큰만으로 SWE-Bench Verified 58.5% 달성
•SII-GAIR, 고성능 코딩 에이전트 개발을 위해 데이터셋 및 레시피 전면 오픈소스화

AI가 단순히 코드를 읽는 수준을 넘어 파일을 탐색하고 테스트를 실행하며 버그를 잡는 진정한 소프트웨어 공학을 수행하려면 기존과는 다른 방식이 필요하다. SII-GAIR 연구팀은 실제 개발자의 작업 흐름을 모방한 대규모 데이터를 학습시키는 '에이전틱 미드트레이닝(agentic mid-training)' 프로젝트, daVinci-Dev를 공개. 단순한 코드 생성을 넘어 스스로 문제를 해결하는 자율적 능력을 키우는 데 집중한 결과다. 연구팀은 정적 텍스트와 상호작용이 일어나는 코딩 환경 사이의 간극을 메우기 위해 '에이전트 네이티브 데이터'를 활용했다. 여기에는 개발자가 보는 모든 정보의 흐름을 담은 문맥 네이티브 궤적과, 실제 도구 사용 및 테스트 결과를 기록한 환경 네이티브 궤적이 포함된다. 이러한 동적 피드백 루프를 학습함으로써 모델은 독립적인 코딩 에이전트로서 행동하는 데 필요한 기초 역량을 습득했다. 성과는 놀라웠다. daVinci-Dev 72B 모델은 SWE-Bench Verified 벤치마크에서 58.5%의 해결률을 기록하며 뛰어난 성능을 입증했다. 특히 Kimi-Dev와 같은 기존 모델을 앞지르면서도 학습에 필요한 토큰은 절반 이하로 줄였다는 점이 핵심이다. 이는 복잡한 소프트웨어 저장소를 다루는 능력을 가르칠 때 데이터의 '양'보다 상호작용 데이터의 '질'이 훨씬 중요하다는 사실을 시사한다. 범용 대규모 언어 모델 (LLM)에서 시작한 daVinci-Dev는 미드트레이닝이 고비용의 강화 학습을 대체할 수 있는 강력하고 확장 가능한 대안임을 증명했다. 연구진은 데이터셋과 모델 체크포인트를 배포하여, 막대한 컴퓨팅 비용 없이도 누구나 고성능 소프트웨어 에이전트를 구축할 수 있는 청사진을 제공할 계획이다.