이 기사의 핵심 내용은?

MIT CSAIL과 Asari AI가 AI 에이전트의 오류 수정을 자동화하는 EnCompass 프레임워크를 발표했다. 자동 백트래킹과 런타임 클로닝을 도입해 수동 코딩 작업을 약 80% 줄이는 데 성공했다. 고급 검색 알고리즘을 적용한 결과, 에이전트의 작업 정확도가 최대 40%까지 향상되었다.

MIT, AI 에이전트의 정확도 높이는 EnCompass 공개

•MIT CSAIL과 Asari AI가 AI 에이전트의 오류 수정을 자동화하는 EnCompass 프레임워크를 발표했다.
•자동 백트래킹과 런타임 클로닝을 도입해 수동 코딩 작업을 약 80% 줄이는 데 성공했다.
•고급 검색 알고리즘을 적용한 결과, 에이전트의 작업 정확도가 최대 40%까지 향상되었다.

AI 에이전트는 근간이 되는 모델이 논리적 오류를 범할 경우 실패하기 쉬우며, 개발자는 이를 해결하기 위해 반복적이고 복잡한 예외 처리 코드를 작성해야만 했다. MIT CSAIL과 Asari AI 연구진은 이러한 병목 현상을 해결하기 위해 EnCompass를 개발했다. 이 프레임워크는 에이전트의 워크플로우를 선형적인 스크립트가 아닌 ‘선택형 모험 소설’처럼 처리한다. 특히 특정 단계를 분기점으로 설정함으로써 오류가 감지될 때 시스템이 자동으로 이전 단계로 돌아가거나 병렬 시도를 수행하도록 설계되어, 자율 시스템 개발 과정을 획기적으로 간소화했다.

EnCompass의 핵심 혁신은 검색 전략을 에이전트의 기본 로직에서 분리했다는 점에 있다. 개발자는 모든 개별 작업에 대해 오류 처리 코드를 직접 작성하는 대신, 대규모 언어 모델 (LLM) 호출과 같이 결과가 달라질 수 있는 지점을 지정하기만 하면 된다. 이후 몬테카를로 트리 탐색이나 빔 서치와 같은 사전 구축된 알고리즘을 연결해 최적의 실행 경로를 찾을 수 있다. 이러한 분리 덕분에 프로그래머는 수천 줄의 코드를 다시 쓰지 않고도 다양한 최적화 경로를 실험하며 가장 효율적인 실행 방식을 확보하게 되었다.

실제로 코드 저장소 번역 작업이 포함된 실무 테스트에서 EnCompass는 표준 실행 방식 대비 월등한 성능 향상을 보여주었으며, 코딩에 투입되는 노력을 최대 82%까지 줄였다. 현재의 많은 AI 에이전트가 대규모 언어 모델 (LLM)에 전적으로 의존하는 '블랙박스' 형태로 운영되지만, EnCompass는 인간 개발자가 고수준의 작업을 정의하는 프로그래밍 방식의 워크플로우에 집중한다. 이에 따라 이번 연구는 인간의 개입을 최소화하면서도 방대한 코드베이스를 관리하거나 복잡한 과학 실험을 설계할 수 있는 신뢰성 높은 AI 시스템 구축의 발판을 마련했다.

AI 에이전트는 근간이 되는 모델이 논리적 오류를 범할 경우 실패하기 쉬우며, 개발자는 이를 해결하기 위해 반복적이고 복잡한 예외 처리 코드를 작성해야만 했다. MIT CSAIL과 Asari AI 연구진은 이러한 병목 현상을 해결하기 위해 EnCompass를 개발했다. 이 프레임워크는 에이전트의 워크플로우를 선형적인 스크립트가 아닌 ‘선택형 모험 소설’처럼 처리한다. 특히 특정 단계를 분기점으로 설정함으로써 오류가 감지될 때 시스템이 자동으로 이전 단계로 돌아가거나 병렬 시도를 수행하도록 설계되어, 자율 시스템 개발 과정을 획기적으로 간소화했다.

EnCompass의 핵심 혁신은 검색 전략을 에이전트의 기본 로직에서 분리했다는 점에 있다. 개발자는 모든 개별 작업에 대해 오류 처리 코드를 직접 작성하는 대신, 대규모 언어 모델 (LLM) 호출과 같이 결과가 달라질 수 있는 지점을 지정하기만 하면 된다. 이후 몬테카를로 트리 탐색이나 빔 서치와 같은 사전 구축된 알고리즘을 연결해 최적의 실행 경로를 찾을 수 있다. 이러한 분리 덕분에 프로그래머는 수천 줄의 코드를 다시 쓰지 않고도 다양한 최적화 경로를 실험하며 가장 효율적인 실행 방식을 확보하게 되었다.

실제로 코드 저장소 번역 작업이 포함된 실무 테스트에서 EnCompass는 표준 실행 방식 대비 월등한 성능 향상을 보여주었으며, 코딩에 투입되는 노력을 최대 82%까지 줄였다. 현재의 많은 AI 에이전트가 대규모 언어 모델 (LLM)에 전적으로 의존하는 '블랙박스' 형태로 운영되지만, EnCompass는 인간 개발자가 고수준의 작업을 정의하는 프로그래밍 방식의 워크플로우에 집중한다. 이에 따라 이번 연구는 인간의 개입을 최소화하면서도 방대한 코드베이스를 관리하거나 복잡한 과학 실험을 설계할 수 있는 신뢰성 높은 AI 시스템 구축의 발판을 마련했다.