이 기사의 핵심 내용은?

사카나 AI와 MIT 연구진은 LLM을 활용해 코어 워 환경에서 대항적 프로그램 진화를 유도하는 디지털 레드 퀸 알고리즘을 발표했다. 이 시스템은 자기 복제와 데이터 폭격 등 고도화된 전략을 스스로 학습하며 독립적인 진화 과정에서도 유사한 고성능 행동이 나타나는 수렴 진화 현상을 보였다. 튜링 완전한 샌드박스인 코어 워를 통해 사이버 보안과 같은 실제 적대적 환경에서의 AI 에이전트 행동과 적응 방식을 안전하게 분석할 수 있는 토대를 마련했다.

LLM 기반 대항적 프로그램 진화 시스템 디지털 레드 퀸 공개

•사카나 AI와 MIT 연구진은 LLM을 활용해 코어 워 환경에서 대항적 프로그램 진화를 유도하는 디지털 레드 퀸 알고리즘을 발표했다.
•이 시스템은 자기 복제와 데이터 폭격 등 고도화된 전략을 스스로 학습하며 독립적인 진화 과정에서도 유사한 고성능 행동이 나타나는 수렴 진화 현상을 보였다.
•튜링 완전한 샌드박스인 코어 워를 통해 사이버 보안과 같은 실제 적대적 환경에서의 AI 에이전트 행동과 적응 방식을 안전하게 분석할 수 있는 토대를 마련했다.

•사카나 AI와 MIT 연구진은 LLM을 활용해 코어 워 환경에서 대항적 프로그램 진화를 유도하는 디지털 레드 퀸 알고리즘을 발표했다.
•이 시스템은 자기 복제와 데이터 폭격 등 고도화된 전략을 스스로 학습하며 독립적인 진화 과정에서도 유사한 고성능 행동이 나타나는 수렴 진화 현상을 보였다.
•튜링 완전한 샌드박스인 코어 워를 통해 사이버 보안과 같은 실제 적대적 환경에서의 AI 에이전트 행동과 적응 방식을 안전하게 분석할 수 있는 토대를 마련했다.

사카나 AI와 MIT 연구진은 고전 프로그래밍 게임인 코어 워(Core War)를 활용해 대항적 공진화를 탐구하는 프로젝트 '디지털 레드 퀸(DRQ)'을 전격 공개했다. 이 시스템은 거대언어모델(LLM)에 어셈블리 수준의 코드를 작성하도록 지시하여 가상 머신의 공유 메모리 공간을 점유하기 위해 경쟁하는 '워리어' 프로그램을 생성하는 방식이다. 기존의 정적인 벤치마크 테스트와 달리 DRQ는 새로운 버전의 프로그램이 이전 세대의 모든 승리 기록을 상대로 대결하며 승리하도록 진화하는 자기 대결(Self-play) 루프를 핵심으로 한다. 이러한 반복적인 진화 압력은 LLM이 가상 머신의 제어권을 유지하기 위해 점점 더 견고하고 고도화된 전략을 스스로 발견하도록 강제한다.

연구 과정에서 서로 다른 진화 계통을 거쳤음에도 불구하고 결과적으로 유사한 전략적 행동이 나타나는 형태적 수렴 진화 현상이 관찰되었다. 예를 들어 독립적인 실행 환경에서 생성된 서로 다른 코드 구현체들이 자기 복제나 메모리 폭격과 같은 유사한 고성능 전술을 채택하는 모습이 확인되었다. 이는 특정한 기능적 요구 사항이 종을 유사한 해결책으로 이끄는 생물학적 진화 과정과 매우 흡사한 양상을 띠는 것이다. 특히 코어 워 환경은 튜링 완전하면서도 안전하게 격리된 샌드박스이기에 사이버 보안과 같은 실제 적대적 상황에서 AI 에이전트가 어떻게 행동하고 적응하는지를 정밀하게 분석할 수 있는 최적의 실험실 역할을 수행한다.

실제로 이러한 역학 관계 시뮬레이션을 통해 연구팀은 AI 기반의 자동화된 보안 취약점 점검인 레드팀 활동 등의 과업 수행 가능성을 깊이 있게 확인하고자 한다. 또한 단순한 자기 대결 루프만으로도 AI 시스템에서 복잡하고 일반화된 행동을 충분히 이끌어낼 수 있음을 입증하며 향후 현실 세계의 멀티 에이전트 경쟁 환경에 대한 중요한 통찰을 제공한다. 한편 이번 연구는 특수한 어셈블리 언어인 레드코드(Redcode)를 사용하여 명령어와 데이터가 동일한 주소 공간을 공유하도록 설계했다. 이에 따라 프로그램이 실행 중에 자신의 코드를 스스로 수정하며 더욱 정교하고 변칙적인 대응 전략을 구축할 수 있게 되었다.

결론적으로 이번 연구는 AI가 스스로 경쟁하며 진화하는 과정이 생물학적 진화와 얼마나 닮아 있는지를 보여주는 동시에 보안 분야에서의 활용 가능성을 시사한다. 사카나 AI의 연구진은 이러한 디지털 생태계가 향후 자율적인 AI 시스템의 안전성과 효율성을 검증하는 중요한 지표가 될 것으로 내다봤다. 또한 MIT의 공학자들은 이번 실험 결과가 AI 모델의 추론 능력 향상뿐만 아니라 예기치 못한 적대적 행동을 예측하는 데 기여할 것으로 평가했다. 이에 따라 AI 에이전트의 안전한 배포를 위한 연구가 더욱 가속화될 전망이다.

사카나 AI와 MIT 연구진은 고전 프로그래밍 게임인 코어 워(Core War)를 활용해 대항적 공진화를 탐구하는 프로젝트 '디지털 레드 퀸(DRQ)'을 전격 공개했다. 이 시스템은 거대언어모델(LLM)에 어셈블리 수준의 코드를 작성하도록 지시하여 가상 머신의 공유 메모리 공간을 점유하기 위해 경쟁하는 '워리어' 프로그램을 생성하는 방식이다. 기존의 정적인 벤치마크 테스트와 달리 DRQ는 새로운 버전의 프로그램이 이전 세대의 모든 승리 기록을 상대로 대결하며 승리하도록 진화하는 자기 대결(Self-play) 루프를 핵심으로 한다. 이러한 반복적인 진화 압력은 LLM이 가상 머신의 제어권을 유지하기 위해 점점 더 견고하고 고도화된 전략을 스스로 발견하도록 강제한다.

연구 과정에서 서로 다른 진화 계통을 거쳤음에도 불구하고 결과적으로 유사한 전략적 행동이 나타나는 형태적 수렴 진화 현상이 관찰되었다. 예를 들어 독립적인 실행 환경에서 생성된 서로 다른 코드 구현체들이 자기 복제나 메모리 폭격과 같은 유사한 고성능 전술을 채택하는 모습이 확인되었다. 이는 특정한 기능적 요구 사항이 종을 유사한 해결책으로 이끄는 생물학적 진화 과정과 매우 흡사한 양상을 띠는 것이다. 특히 코어 워 환경은 튜링 완전하면서도 안전하게 격리된 샌드박스이기에 사이버 보안과 같은 실제 적대적 상황에서 AI 에이전트가 어떻게 행동하고 적응하는지를 정밀하게 분석할 수 있는 최적의 실험실 역할을 수행한다.

실제로 이러한 역학 관계 시뮬레이션을 통해 연구팀은 AI 기반의 자동화된 보안 취약점 점검인 레드팀 활동 등의 과업 수행 가능성을 깊이 있게 확인하고자 한다. 또한 단순한 자기 대결 루프만으로도 AI 시스템에서 복잡하고 일반화된 행동을 충분히 이끌어낼 수 있음을 입증하며 향후 현실 세계의 멀티 에이전트 경쟁 환경에 대한 중요한 통찰을 제공한다. 한편 이번 연구는 특수한 어셈블리 언어인 레드코드(Redcode)를 사용하여 명령어와 데이터가 동일한 주소 공간을 공유하도록 설계했다. 이에 따라 프로그램이 실행 중에 자신의 코드를 스스로 수정하며 더욱 정교하고 변칙적인 대응 전략을 구축할 수 있게 되었다.

결론적으로 이번 연구는 AI가 스스로 경쟁하며 진화하는 과정이 생물학적 진화와 얼마나 닮아 있는지를 보여주는 동시에 보안 분야에서의 활용 가능성을 시사한다. 사카나 AI의 연구진은 이러한 디지털 생태계가 향후 자율적인 AI 시스템의 안전성과 효율성을 검증하는 중요한 지표가 될 것으로 내다봤다. 또한 MIT의 공학자들은 이번 실험 결과가 AI 모델의 추론 능력 향상뿐만 아니라 예기치 못한 적대적 행동을 예측하는 데 기여할 것으로 평가했다. 이에 따라 AI 에이전트의 안전한 배포를 위한 연구가 더욱 가속화될 전망이다.