이 기사의 핵심 내용은?

Sakana AI가 복잡한 작업을 전문 AI 팀에 위임하는 모델 'Conductor'를 공개했다. 이 시스템은 LiveCodeBench 및 GPQA-Diamond에서 개별 모델을 능가하는 성능과 높은 비용 효율성을 입증했다. 재귀적 자기 수정 기능을 통해 에이전트가 스스로 결과물을 검토하고 오류를 자율적으로 해결한다.

새로운 AI 오케스트레이터, 전문가 팀을 동적으로 구성하다

•Sakana AI가 복잡한 작업을 전문 AI 팀에 위임하는 모델 'Conductor'를 공개했다.
•이 시스템은 LiveCodeBench 및 GPQA-Diamond에서 개별 모델을 능가하는 성능과 높은 비용 효율성을 입증했다.
•재귀적 자기 수정 기능을 통해 에이전트가 스스로 결과물을 검토하고 오류를 자율적으로 해결한다.

지난 수년간 거대 언어 모델(Large Language Model)의 성능을 극대화하기 위한 표준은 프롬프트 엔지니어링이었다. 하지만 작업이 복잡하고 다층적으로 변함에 따라 인간이 일일이 지시를 내리는 방식은 점차 한계에 부딪혔다. 이에 Sakana AI 연구진은 특정 문제를 풀기 위해 모델을 학습시키는 대신, 관리자 역할을 수행하도록 모델을 훈련하는 새로운 패러다임을 제시했다. ICLR 2026에서 채택된 이들의 연구는 다양한 전문 AI 에이전트 그룹에 하위 작업을 위임하여 전체 워크플로우를 조율하는 'Conductor' 모델을 소개한다.

Conductor는 기업의 프로젝트 관리자와 유사하게 작동한다. 질문을 받으면 즉시 답을 생성하려 하지 않고, 요청의 복잡성을 분석하여 가장 적합한 모델을 선택한다. 단순한 사실 확인은 단일 모델에 맡기지만, 복잡한 코딩 문제가 주어지면 기획자, 코더, 검증자로 구성된 전문 파이프라인을 실시간으로 구축한다. 이러한 동적 적응 능력은 사용자의 요구에 맞춰 즉석에서 최적화된 팀을 꾸리는 핵심적인 돌파구이다.

이번 연구에서 가장 흥미로운 점은 '재귀적 테스트 시간 확장'이라 불리는 기능이다. Conductor는 자신의 워크플로우에 스스로를 포함해 이전 결과물을 검토하고, 논리적 오류를 식별하여 즉각적인 수정 과정을 거친다. 실행 중에 스스로 성찰하고 개선하는 이러한 능력은 계산 효율성에 새로운 차원을 더했다. 단순히 모델의 크기를 키우는 대신 워크플로우 자체의 지능을 확장하여, 기존의 경직된 다중 에이전트 시스템보다 훨씬 적은 비용으로 고성능을 구현한다.

실제로 7B 규모의 Conductor 모델은 LiveCodeBench와 GPQA-Diamond 같은 산업 표준 벤치마크에서 새로운 기록을 세우며 이러한 전략 변화를 뒷받침했다. 이 시스템은 여러 모델의 집단 지성을 활용하는 메타 프롬프트 엔지니어로서 AI 개발의 미래 방향을 제시한다. 이제 업계는 혼자 모든 것을 해결하려는 거대 모델에서 벗어나, 가장 어려운 난제를 해결하기 위해 서로 협력하는 유연하고 분산된 시스템으로 나아가고 있다.

지난 수년간 거대 언어 모델(Large Language Model)의 성능을 극대화하기 위한 표준은 프롬프트 엔지니어링이었다. 하지만 작업이 복잡하고 다층적으로 변함에 따라 인간이 일일이 지시를 내리는 방식은 점차 한계에 부딪혔다. 이에 Sakana AI 연구진은 특정 문제를 풀기 위해 모델을 학습시키는 대신, 관리자 역할을 수행하도록 모델을 훈련하는 새로운 패러다임을 제시했다. ICLR 2026에서 채택된 이들의 연구는 다양한 전문 AI 에이전트 그룹에 하위 작업을 위임하여 전체 워크플로우를 조율하는 'Conductor' 모델을 소개한다.

Conductor는 기업의 프로젝트 관리자와 유사하게 작동한다. 질문을 받으면 즉시 답을 생성하려 하지 않고, 요청의 복잡성을 분석하여 가장 적합한 모델을 선택한다. 단순한 사실 확인은 단일 모델에 맡기지만, 복잡한 코딩 문제가 주어지면 기획자, 코더, 검증자로 구성된 전문 파이프라인을 실시간으로 구축한다. 이러한 동적 적응 능력은 사용자의 요구에 맞춰 즉석에서 최적화된 팀을 꾸리는 핵심적인 돌파구이다.

이번 연구에서 가장 흥미로운 점은 '재귀적 테스트 시간 확장'이라 불리는 기능이다. Conductor는 자신의 워크플로우에 스스로를 포함해 이전 결과물을 검토하고, 논리적 오류를 식별하여 즉각적인 수정 과정을 거친다. 실행 중에 스스로 성찰하고 개선하는 이러한 능력은 계산 효율성에 새로운 차원을 더했다. 단순히 모델의 크기를 키우는 대신 워크플로우 자체의 지능을 확장하여, 기존의 경직된 다중 에이전트 시스템보다 훨씬 적은 비용으로 고성능을 구현한다.

실제로 7B 규모의 Conductor 모델은 LiveCodeBench와 GPQA-Diamond 같은 산업 표준 벤치마크에서 새로운 기록을 세우며 이러한 전략 변화를 뒷받침했다. 이 시스템은 여러 모델의 집단 지성을 활용하는 메타 프롬프트 엔지니어로서 AI 개발의 미래 방향을 제시한다. 이제 업계는 혼자 모든 것을 해결하려는 거대 모델에서 벗어나, 가장 어려운 난제를 해결하기 위해 서로 협력하는 유연하고 분산된 시스템으로 나아가고 있다.