이 기사의 핵심 내용은?

TMAS 프레임워크는 멀티 에이전트 간의 협업과 구조화된 정보 흐름을 통해 테스트 타임 컴퓨팅(test-time compute)을 확장한다. 경험 및 가이드라인 뱅크로 구성된 계층형 메모리를 활용해 결론을 재사용하고 중복 추론을 방지한다. 하이브리드 보상 강화학습 체계를 도입해 스케일링 안정성과 반복적 추론 성능을 동시에 개선했다.

TMAS 프레임워크, 멀티 에이전트 협업으로 추론 성능 극대화

•TMAS 프레임워크는 멀티 에이전트 간의 협업과 구조화된 정보 흐름을 통해 테스트 타임 컴퓨팅(test-time compute)을 확장한다.
•경험 및 가이드라인 뱅크로 구성된 계층형 메모리를 활용해 결론을 재사용하고 중복 추론을 방지한다.
•하이브리드 보상 강화학습 체계를 도입해 스케일링 안정성과 반복적 추론 성능을 동시에 개선했다.

•TMAS 프레임워크는 멀티 에이전트 간의 협업과 구조화된 정보 흐름을 통해 테스트 타임 컴퓨팅(test-time compute)을 확장한다.
•경험 및 가이드라인 뱅크로 구성된 계층형 메모리를 활용해 결론을 재사용하고 중복 추론을 방지한다.
•하이브리드 보상 강화학습 체계를 도입해 스케일링 안정성과 반복적 추론 성능을 동시에 개선했다.

연구진은 5월 11일 대규모 언어 모델의 테스트 타임 컴퓨팅을 확장하기 위한 멀티 에이전트 프레임워크인 TMAS를 공개했다. 이 시스템은 개별적인 추론 방식을 탈피하여, 전문화된 에이전트들이 궤적과 개선 반복 과정에서 정보를 공유하는 협력적 프로세스로 전환했다. 추론 과정을 구조화된 시너지로 조직함으로써, 추론 작업 내에서 탐색과 활용 사이의 균형을 유지하는 기존의 한계를 극복하는 것을 목표로 한다.

정보 흐름을 관리하기 위해 해당 프레임워크는 경험 뱅크와 가이드라인 뱅크로 구성된 계층형 메모리를 채택했다. 경험 뱅크는 신뢰할 수 있는 중간 결론과 로컬 피드백을 저장해 향후 재사용하며, 가이드라인 뱅크는 상위 전략을 추적하여 중복되는 추론 패턴을 방지한다. 이러한 아키텍처를 통해 시스템은 어떤 정보가 후속 계산 단계에서 유용한지를 명시적으로 판단할 수 있다.

또한 연구진은 멀티 에이전트 프로세스를 정렬하기 위해 하이브리드 보상 강화학습 체계를 개발했다. 이 학습 방식은 기본적인 추론 능력을 유지하는 동시에 저장된 경험의 활용도를 높이고 새로운 해결 전략 발견을 장려한다. 실험 결과에 따르면 TMAS는 기존의 테스트 타임 스케일링 기준 모델보다 강력한 반복적 스케일링을 달성하며 추론 과정에서 향상된 안정성을 제공한다. 해당 프로젝트의 코드와 데이터는 5월 12일 GitHub를 통해 공개되었다.

연구진은 5월 11일 대규모 언어 모델의 테스트 타임 컴퓨팅을 확장하기 위한 멀티 에이전트 프레임워크인 TMAS를 공개했다. 이 시스템은 개별적인 추론 방식을 탈피하여, 전문화된 에이전트들이 궤적과 개선 반복 과정에서 정보를 공유하는 협력적 프로세스로 전환했다. 추론 과정을 구조화된 시너지로 조직함으로써, 추론 작업 내에서 탐색과 활용 사이의 균형을 유지하는 기존의 한계를 극복하는 것을 목표로 한다.

정보 흐름을 관리하기 위해 해당 프레임워크는 경험 뱅크와 가이드라인 뱅크로 구성된 계층형 메모리를 채택했다. 경험 뱅크는 신뢰할 수 있는 중간 결론과 로컬 피드백을 저장해 향후 재사용하며, 가이드라인 뱅크는 상위 전략을 추적하여 중복되는 추론 패턴을 방지한다. 이러한 아키텍처를 통해 시스템은 어떤 정보가 후속 계산 단계에서 유용한지를 명시적으로 판단할 수 있다.

또한 연구진은 멀티 에이전트 프로세스를 정렬하기 위해 하이브리드 보상 강화학습 체계를 개발했다. 이 학습 방식은 기본적인 추론 능력을 유지하는 동시에 저장된 경험의 활용도를 높이고 새로운 해결 전략 발견을 장려한다. 실험 결과에 따르면 TMAS는 기존의 테스트 타임 스케일링 기준 모델보다 강력한 반복적 스케일링을 달성하며 추론 과정에서 향상된 안정성을 제공한다. 해당 프로젝트의 코드와 데이터는 5월 12일 GitHub를 통해 공개되었다.