마이크로소프트, 에이전틱 AI 진화 이끄는 'LLM-in-Sandbox' 공개
- •마이크로소프트 연구진이 모델이 비코드(non-code) 작업을 위해 가상 컴퓨터 환경을 탐색할 수 있게 하는 'LLM-in-Sandbox'를 발표했다.
- •이 프레임워크는 별도의 추가 모델 학습 없이도 수학, 물리, 화학 분야에서 강력한 일반화 성능을 달성했다.
- •LLM-in-Sandbox-RL은 표준 데이터셋을 활용해 모델이 샌드박스를 탐색하도록 훈련시켜 성능을 더욱 강화한다.
마이크로소프트 연구진이 LLM이 가상 컴퓨터 환경과 상호작용하며 복잡한 비코딩 과제를 해결할 수 있도록 돕는 새로운 프레임워크 'LLM-in-Sandbox'를 공개했다.
AI에게 코드 샌드박스 접근 권한을 부여하자 모델들이 놀라운 행동을 보이기 시작했다. 파일 시스템을 활용해 긴 문맥 데이터를 관리하거나, 엄격한 형식 요구사항을 맞추기 위해 맞춤형 스크립트를 실행하는 등 능동적인 모습을 보인 것이다. 이는 모델이 단순히 텍스트를 예측하는 수동적 존재에서 벗어나, 주변 환경을 탐색하고 조작하여 해답을 찾아내는 '능동적 에이전트'로 진화했음을 시사한다. 가장 놀라운 발견은 화학, 물리, 생물의학 등 다양한 과학 분야에서 별도의 작업 특화 훈련 없이도 강력한 일반화 성능을 보여주었다는 점이다. 프로그래밍에 내재된 구조적 논리가 범용 지능으로 향하는 가교 역할을 할 수 있음을 증명한 셈이다. 연구팀은 이러한 행동을 정교화하기 위해 강화 학습 기반의 특수 훈련 방식을 도입했다. 표준 데이터셋을 활용해 모델이 샌드박스를 능숙하게 탐색하는 기술을 익히도록 설계한 것이 특징이다. 격리된 환경(샌드박싱)을 탐색하도록 AI를 훈련함으로써 더욱 신뢰할 수 있고 자율적인 시스템으로 가는 길을 열었다. 현재 이 프레임워크는 Python 패키지로 오픈소스화되어 개발자들이 에이전틱 AI 기능을 실제 애플리케이션에 통합할 수 있게 됐다.
이번 연구는 AI 개발의 패러다임이 단순히 매개변수 규모를 키우는 단계를 넘어, 외부 도구 및 계산 자원과 상호작용하는 방식을 강화하는 방향으로 이동하고 있음을 잘 보여준다.