AI 비교하기AI 사용하기AI 조합하기AI 최신정보
우리의 비전이용약관개인정보처리방침문의하기
  1. 오늘의 AI 소식
  2. MMSkills, 시각 에이전트의 절차적 지식 활용 능력 강화

MMSkills, 시각 에이전트의 절차적 지식 활용 능력 강화

MMSkills, 시각 에이전트의 절차적 지식 활용 능력 강화

HuggingFace
2026년 5월 19일 (화)
  • •상하이 교통대학 연구진이 시각 에이전트에게 재사용 가능한 멀티모달 절차적 지식을 제공하는 MMSkills를 발표했다.
  • •해당 프레임워크는 에이전트 기반 생성기를 통해 공개된 상호작용 데이터로부터 워크플로 그룹화 및 시각적 접지를 거쳐 스킬 패키지를 구축한다.
  • •실험 결과, MMSkills는 다양한 GUI 및 게임 기반 벤치마크에서 시각 에이전트의 성능을 일관되게 향상시키는 것으로 확인됐다.
  • •상하이 교통대학 연구진이 시각 에이전트에게 재사용 가능한 멀티모달 절차적 지식을 제공하는 MMSkills를 발표했다.
  • •해당 프레임워크는 에이전트 기반 생성기를 통해 공개된 상호작용 데이터로부터 워크플로 그룹화 및 시각적 접지를 거쳐 스킬 패키지를 구축한다.
  • •실험 결과, MMSkills는 다양한 GUI 및 게임 기반 벤치마크에서 시각 에이전트의 성능을 일관되게 향상시키는 것으로 확인됐다.

상하이 교통대학 연구진은 5월 14일, 시각 에이전트의 성능 향상을 위한 새로운 프레임워크인 MMSkills를 공개했다. 기존 방식들이 주로 텍스트나 코드에 의존하는 것과 달리, 이번 연구는 에이전트가 상태를 인식하고 시각적 진척도를 해석하며 환경을 탐색하기 위해 멀티모달 정보가 필수적이라는 점에 주목했다. MMSkills는 텍스트 기반 절차를 런타임 상태 카드 및 다각도 키프레임과 결합하여 상태 기반의 소형 패키지로 정형화한다.

패키지 생성을 위해 연구팀은 에이전트 기반의 궤적-스킬 생성기를 개발했다. 이 도구는 평가 목적이 아닌 일반적인 상호작용 궤적을 워크플로 그룹화, 절차 유도, 시각적 접지, 메타 스킬 기반 감사를 거쳐 재사용 가능한 스킬로 변환한다. 이 자동화된 과정을 통해 별도의 수동 입력 없이도 구조화된 절차적 지식을 확보할 수 있다.

실행 단계에서는 분기 로드 방식의 멀티모달 스킬 에이전트를 구현했다. 이 에이전트는 임시 분기에서 상태 카드와 키프레임을 검토하고 실시간 환경과 정렬한 뒤 구조화된 가이드로 변환한다. 이를 통해 시각적 의사결정 과정에서 과도한 이미지 문맥 없이도 효과적인 멀티모달 증거를 활용할 수 있다. GUI 및 게임 기반 벤치마크 실험 결과, MMSkills는 주요 모델과 소형 에이전트 모두의 성능을 개선하며 외부 절차적 지식이 모델 내부의 사전 지식을 보완하는 데 효과적임을 입증했다.

상하이 교통대학 연구진은 5월 14일, 시각 에이전트의 성능 향상을 위한 새로운 프레임워크인 MMSkills를 공개했다. 기존 방식들이 주로 텍스트나 코드에 의존하는 것과 달리, 이번 연구는 에이전트가 상태를 인식하고 시각적 진척도를 해석하며 환경을 탐색하기 위해 멀티모달 정보가 필수적이라는 점에 주목했다. MMSkills는 텍스트 기반 절차를 런타임 상태 카드 및 다각도 키프레임과 결합하여 상태 기반의 소형 패키지로 정형화한다.

패키지 생성을 위해 연구팀은 에이전트 기반의 궤적-스킬 생성기를 개발했다. 이 도구는 평가 목적이 아닌 일반적인 상호작용 궤적을 워크플로 그룹화, 절차 유도, 시각적 접지, 메타 스킬 기반 감사를 거쳐 재사용 가능한 스킬로 변환한다. 이 자동화된 과정을 통해 별도의 수동 입력 없이도 구조화된 절차적 지식을 확보할 수 있다.

실행 단계에서는 분기 로드 방식의 멀티모달 스킬 에이전트를 구현했다. 이 에이전트는 임시 분기에서 상태 카드와 키프레임을 검토하고 실시간 환경과 정렬한 뒤 구조화된 가이드로 변환한다. 이를 통해 시각적 의사결정 과정에서 과도한 이미지 문맥 없이도 효과적인 멀티모달 증거를 활용할 수 있다. GUI 및 게임 기반 벤치마크 실험 결과, MMSkills는 주요 모델과 소형 에이전트 모두의 성능을 개선하며 외부 절차적 지식이 모델 내부의 사전 지식을 보완하는 데 효과적임을 입증했다.

원문 보기 (영어)·2026년 5월 19일
#visual agent#multimodal#procedural knowledge#mmskills#agentic ai