이 기사의 핵심 내용은?

Nebius가 32,000개 이상의 실행 가능한 소프트웨어 엔지니어링 과제를 포함한 SWE-rebench V2를 출시했다. 새로운 파이프라인은 3,600개 이상의 GitHub 리포지토리에 걸쳐 20개의 프로그래밍 언어를 지원한다. AI 심사위원을 활용하는 자동화 시스템을 통해 환경을 검증하고 신뢰할 수 없는 데이터를 필터링한다.

Nebius, AI 엔지니어링용 대규모 데이터셋 공개

•Nebius가 32,000개 이상의 실행 가능한 소프트웨어 엔지니어링 과제를 포함한 SWE-rebench V2를 출시했다.
•새로운 파이프라인은 3,600개 이상의 GitHub 리포지토리에 걸쳐 20개의 프로그래밍 언어를 지원한다.
•AI 심사위원을 활용하는 자동화 시스템을 통해 환경을 검증하고 신뢰할 수 없는 데이터를 필터링한다.

•Nebius가 32,000개 이상의 실행 가능한 소프트웨어 엔지니어링 과제를 포함한 SWE-rebench V2를 출시했다.
•새로운 파이프라인은 3,600개 이상의 GitHub 리포지토리에 걸쳐 20개의 프로그래밍 언어를 지원한다.
•AI 심사위원을 활용하는 자동화 시스템을 통해 환경을 검증하고 신뢰할 수 없는 데이터를 필터링한다.

자율적인 소프트웨어 엔지니어링이 가능한 AI 에이전트 개발은 그동안 다양하고 고품질인 학습 데이터의 부족으로 인해 큰 병목 현상을 겪어왔다. 모델이 시행착오를 통해 배우는 방식인 강화 학습이 최근의 성장을 이끌었지만, 연구자들은 여러 프로그래밍 언어에 걸쳐 재현 가능한 코딩 과제를 충분히 확보하는 데 어려움을 겪었다. 이에 Nebius는 전례 없는 규모로 실제 소프트웨어 엔지니어링 과제를 수집하고 검증하도록 설계된 언어 중립적 파이프라인인 SWE-rebench V2를 공개했다.

해당 프로젝트의 릴리스는 방대한 범위와 자동화 측면에서 큰 의의를 지닌다. 특히 Python과 같은 자원이 풍부한 언어에만 집중하던 기존 방식에서 벗어나, 3,600개 이상의 리포지토리에 걸쳐 20개의 서로 다른 프로그래밍 언어를 포괄한다는 점이 돋보인다. 연구팀은 대화형 설정 에이전트를 사용해 설치 절차를 합성하고 AI 심사위원단을 구성해 신뢰할 수 없는 데이터를 걸러냄으로써 32,000개 이상의 실행 가능한 과제 데이터셋을 구축했다. 결과적으로 AI 모델이 실제와 유사한 환경에서 버그를 수정하고 기능을 구현하는 연습을 할 수 있는 강력한 토대가 마련되었다.

핵심적인 실행 가능 데이터 외에도, 풀 리퀘스트 설명에서 추출한 12만 개의 추가 과제가 함께 제공된다. 여기에는 학습 모델을 혼란스럽게 할 수 있는 지나치게 제한적인 테스트와 같은 일반적인 함정을 식별하는 메타데이터가 포함되어 있다. 연구진은 이러한 결과물과 실행 코드를 오픈소스로 공개함으로써 정교한 소프트웨어 에이전트 학습을 대중화하고, 에이전트가 전 세계 소프트웨어 생태계 전반에서 문제 해결 능력을 일반화할 수 있도록 돕는 것을 목표로 한다.

자율적인 소프트웨어 엔지니어링이 가능한 AI 에이전트 개발은 그동안 다양하고 고품질인 학습 데이터의 부족으로 인해 큰 병목 현상을 겪어왔다. 모델이 시행착오를 통해 배우는 방식인 강화 학습이 최근의 성장을 이끌었지만, 연구자들은 여러 프로그래밍 언어에 걸쳐 재현 가능한 코딩 과제를 충분히 확보하는 데 어려움을 겪었다. 이에 Nebius는 전례 없는 규모로 실제 소프트웨어 엔지니어링 과제를 수집하고 검증하도록 설계된 언어 중립적 파이프라인인 SWE-rebench V2를 공개했다.

해당 프로젝트의 릴리스는 방대한 범위와 자동화 측면에서 큰 의의를 지닌다. 특히 Python과 같은 자원이 풍부한 언어에만 집중하던 기존 방식에서 벗어나, 3,600개 이상의 리포지토리에 걸쳐 20개의 서로 다른 프로그래밍 언어를 포괄한다는 점이 돋보인다. 연구팀은 대화형 설정 에이전트를 사용해 설치 절차를 합성하고 AI 심사위원단을 구성해 신뢰할 수 없는 데이터를 걸러냄으로써 32,000개 이상의 실행 가능한 과제 데이터셋을 구축했다. 결과적으로 AI 모델이 실제와 유사한 환경에서 버그를 수정하고 기능을 구현하는 연습을 할 수 있는 강력한 토대가 마련되었다.

핵심적인 실행 가능 데이터 외에도, 풀 리퀘스트 설명에서 추출한 12만 개의 추가 과제가 함께 제공된다. 여기에는 학습 모델을 혼란스럽게 할 수 있는 지나치게 제한적인 테스트와 같은 일반적인 함정을 식별하는 메타데이터가 포함되어 있다. 연구진은 이러한 결과물과 실행 코드를 오픈소스로 공개함으로써 정교한 소프트웨어 에이전트 학습을 대중화하고, 에이전트가 전 세계 소프트웨어 생태계 전반에서 문제 해결 능력을 일반화할 수 있도록 돕는 것을 목표로 한다.