AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

Arena, 복합 작업 위한 '에이전트 모드' 출시

Arena, 복합 작업 위한 '에이전트 모드' 출시

Arena AI
2026년 6월 5일 (금)
  • •Arena Team이 복합적인 자율 워크플로우를 지원하는 '에이전트 모드'를 Arena.ai에 도입했다.
  • •사용자는 웹 검색, 코딩, 배시 환경 등 내장 도구를 활용해 복잡한 과업을 수행할 수 있다.
  • •신규 '에이전트 아레나' 리더보드는 실제 사용자 행동 데이터를 기반으로 AI 모델 성능을 평가한다.
  • •Arena Team이 복합적인 자율 워크플로우를 지원하는 '에이전트 모드'를 Arena.ai에 도입했다.
  • •사용자는 웹 검색, 코딩, 배시 환경 등 내장 도구를 활용해 복잡한 과업을 수행할 수 있다.
  • •신규 '에이전트 아레나' 리더보드는 실제 사용자 행동 데이터를 기반으로 AI 모델 성능을 평가한다.

2026년 6월 4일, Arena Team은 단일 대화형 모델에서 자율적인 복합 워크플로우로 전환할 수 있는 '에이전트 모드'를 Arena.ai에 출시했다. 기존 대화형 인터페이스와 달리, 사용자가 복잡한 프로젝트를 개별적인 프롬프트로 나눌 필요 없이 에이전트가 스스로 계획을 수립하고 웹 검색, 이미지 생성, 코딩 지원, 파일 업로드, 배시(bash) 환경 등 내장 도구를 사용하여 전체 작업을 완수한다. 사용자는 아레나 홈페이지에서 '배틀 모드'를 '에이전트 모드'로 전환하여 기능을 이용할 수 있다.

에이전트 모드는 비즈니스 웹사이트 구축, 심층 조사, 제품 출시 조정 등 실제 업무 수행에 초점을 맞추고 있다. 현재 사용 현황을 보면 코딩 작업이 29%로 가장 높은 비중을 차지하며, 조사와 기획이 각각 11%, 워크플로우 자동화가 3.9%를 기록했다. 또한, 분석 데이터에 따르면 사용자는 완전한 자율성보다는 에이전트를 직접 관리하는 것을 선호하는 것으로 나타났다. 후속 메시지에서 사용자는 에이전트의 통제권을 완화하기보다 강화하는 경향이 2배 더 높았다.

아레나는 이번 기능 출시와 함께 복합 구성 요소를 갖춘 에이전트 성능 평가를 위해 새로운 리더보드 방법론을 도입했다. '에이전트 아레나' 리더보드는 수백만 건의 상호작용에서 수집된 자연어 피드백, 작업 성공 여부, 아티팩트 다운로드 이벤트 등 실제 사용자 행동 데이터를 활용한다. 이는 큐레이팅된 프롬프트가 아닌 실제 행동 지표를 통해 AI 성능을 측정하는 새로운 업계 표준을 제시하려는 시도다. 리더보드는 frontier 모델들의 에이전틱 작업 수행 능력을 공개하며, 커뮤니티에서 발생하는 모든 사용 데이터가 순위에 반영된다.

2026년 6월 4일, Arena Team은 단일 대화형 모델에서 자율적인 복합 워크플로우로 전환할 수 있는 '에이전트 모드'를 Arena.ai에 출시했다. 기존 대화형 인터페이스와 달리, 사용자가 복잡한 프로젝트를 개별적인 프롬프트로 나눌 필요 없이 에이전트가 스스로 계획을 수립하고 웹 검색, 이미지 생성, 코딩 지원, 파일 업로드, 배시(bash) 환경 등 내장 도구를 사용하여 전체 작업을 완수한다. 사용자는 아레나 홈페이지에서 '배틀 모드'를 '에이전트 모드'로 전환하여 기능을 이용할 수 있다.

에이전트 모드는 비즈니스 웹사이트 구축, 심층 조사, 제품 출시 조정 등 실제 업무 수행에 초점을 맞추고 있다. 현재 사용 현황을 보면 코딩 작업이 29%로 가장 높은 비중을 차지하며, 조사와 기획이 각각 11%, 워크플로우 자동화가 3.9%를 기록했다. 또한, 분석 데이터에 따르면 사용자는 완전한 자율성보다는 에이전트를 직접 관리하는 것을 선호하는 것으로 나타났다. 후속 메시지에서 사용자는 에이전트의 통제권을 완화하기보다 강화하는 경향이 2배 더 높았다.

아레나는 이번 기능 출시와 함께 복합 구성 요소를 갖춘 에이전트 성능 평가를 위해 새로운 리더보드 방법론을 도입했다. '에이전트 아레나' 리더보드는 수백만 건의 상호작용에서 수집된 자연어 피드백, 작업 성공 여부, 아티팩트 다운로드 이벤트 등 실제 사용자 행동 데이터를 활용한다. 이는 큐레이팅된 프롬프트가 아닌 실제 행동 지표를 통해 AI 성능을 측정하는 새로운 업계 표준을 제시하려는 시도다. 리더보드는 frontier 모델들의 에이전틱 작업 수행 능력을 공개하며, 커뮤니티에서 발생하는 모든 사용 데이터가 순위에 반영된다.

원문 보기 (영어)·2026년 6월 4일
#agentic ai#arena ai#workflow automation#leaderboard#sandbox