새로운 AI 방법론 GRASP로 장기 계획 수립의 한계를 넘다
- •GRASP는 복잡한 월드 모델 환경에서 강력한 경사 하강법 기반의 계획 수립기를 도입함
- •이 방법은 상태와 행동을 병렬로 최적화하여 장기 계획 수립 시 발생하는 취약성을 해결함
- •딥러닝 모델 내의 적대적 피드백을 방지하여 제어 신호를 효과적으로 안정화함
인공지능 에이전트를 개발할 때 연구자들은 흔히 월드 모델에 의존한다. 월드 모델은 AI가 특정 행동을 취하기 전, 그 결과가 환경에 미칠 영향을 미리 예측하도록 돕는 내부 시뮬레이터 역할을 한다. 최근 월드 모델은 시각적 예측 분야에서 괄목할 만한 성과를 보이고 있으나, 긴 시간 축에 걸친 계획 수립에는 여전히 어려움을 겪어왔다. 특히 AI가 미래의 경로를 너무 멀리 투영하려 하면 수학적 최적화 과정이 무너져 계획이 파편화되는 문제가 발생한다.
연구팀이 제안한 GRASP(Gradient RelAxed Stochastic Planner)는 이러한 구조적 약점을 보완하기 위해 고안되었다. 기존의 계획 수립 기법은 현재 상태와 미래 목표 사이의 거리를 줄이기 위해 전체 행동 시퀀스를 한꺼번에 고려한다. 이러한 방식은 계획 수립 기간이 길어질수록 계산이 불안정해져 최적화 과정에서 수학적 오류가 증폭되거나 사라지는 현상을 초래한다.
GRASP는 시간 처리에 대한 접근 방식을 근본적으로 바꾼다. 연구자들은 ‘리프팅’이라는 기술을 활용하여 환경의 규칙인 역학을 엄격한 명령이 아닌 유연한 제약 조건으로 다룬다. 상태와 행동을 시간 축에 따라 병렬로 최적화함으로써, AI는 직렬 처리 과정의 취약성에 빠지지 않고 최선의 경로를 찾을 수 있다. 결과적으로 복잡하고 깨지기 쉬운 계산 체계가 관리 가능한 병렬 최적화 작업으로 변모한다.
이번 연구는 또한 AI 모델이 입력 데이터를 인식하는 방식에 대한 흥미로운 발견을 제시한다. 딥러닝 모델은 고차원 공간에서 유효한 데이터처럼 보이지만 실제로는 오류인 지름길을 찾는 적대적 민감성을 보이기 쉽다. 연구팀은 상태 입력으로 흐르는 기울기는 차단하고 행동 입력으로 흐르는 기울기는 유지하는 방식으로 신호를 선별했다. 이러한 정밀한 필터링을 통해 모델을 위험한 피드백 루프에서 성공적으로 격리했다.
마지막으로 연구진은 상태 업데이트 과정에 확률적인 노이즈를 주입했다. 이는 탐색을 위한 장치를 제공하여, 논리적이고 기울기 기반의 경로에만 갇히기 쉬운 AI가 로컬 트랩에서 벗어나도록 돕는다. 이러한 탐색 전략과 정교하게 다듬어진 기울기 신호가 결합된 GRASP는 복잡한 환경에서 더욱 신뢰할 수 있는 장기 의사결정의 길을 제시한다. 이는 단순히 눈앞의 작업이 아닌 미래를 내다보는 장기적인 추론 능력이 필요한 에이전트 개발에 중요한 진전이다.