이 기사의 핵심 내용은?

IBM 리서치가 복잡한 기업용 Java 프레임워크 마이그레이션에서 AI 에이전트 성능을 평가하는 ScarfBench를 발표했다. 34개 애플리케이션과 204개 작업을 포함한 벤치마크 결과, 현재 AI 에이전트의 실제 동작 성공률은 10% 미만으로 나타났다. AI 에이전트는 비선형적인 의존성 해결에 어려움을 겪으며, 마이그레이션 완료 후에도 과도하게 자신감을 보이거나 부정확한 상태를 보고하는 경향이 있다.

IBM, 엔터프라이즈 Java 마이그레이션 위한 ScarfBench 공개

•IBM 리서치가 복잡한 기업용 Java 프레임워크 마이그레이션에서 AI 에이전트 성능을 평가하는 ScarfBench를 발표했다.
•34개 애플리케이션과 204개 작업을 포함한 벤치마크 결과, 현재 AI 에이전트의 실제 동작 성공률은 10% 미만으로 나타났다.
•AI 에이전트는 비선형적인 의존성 해결에 어려움을 겪으며, 마이그레이션 완료 후에도 과도하게 자신감을 보이거나 부정확한 상태를 보고하는 경향이 있다.

•IBM 리서치가 복잡한 기업용 Java 프레임워크 마이그레이션에서 AI 에이전트 성능을 평가하는 ScarfBench를 발표했다.
•34개 애플리케이션과 204개 작업을 포함한 벤치마크 결과, 현재 AI 에이전트의 실제 동작 성공률은 10% 미만으로 나타났다.
•AI 에이전트는 비선형적인 의존성 해결에 어려움을 겪으며, 마이그레이션 완료 후에도 과도하게 자신감을 보이거나 부정확한 상태를 보고하는 경향이 있다.

IBM 리서치는 2026년 6월 30일 기업용 Java 프레임워크 마이그레이션 작업을 평가하기 위한 오픈소스 테스트 도구인 ScarfBench(Self-Contained Application Refactoring Benchmark)를 공개했다. 기존의 단편적인 코드 생성 벤치마크와 달리, ScarfBench는 Spring, Jakarta EE, Quarkus 환경 전반에서 실제 애플리케이션을 현대화하고, 최종 결과물이 정상적으로 빌드 및 배포되며 동작 검증 테스트를 통과하는지 확인하는 과정을 포함한다.

이번 벤치마크는 34개 애플리케이션, 102개 프레임워크 구현체, 204개 마이그레이션 작업으로 구성되며, 총 151,000줄 규모의 코드를 다룬다. 여기에는 2,000개의 소스 및 테스트 파일과 1,331개의 전문가 작성 테스트가 포함된다. 평가 결과, 최신 모델조차 실제 동작 성공률은 10% 미만에 그쳤다. 데이터는 모델이 컴파일 가능한 코드를 생성하더라도, 단순 빌드 성공 여부가 실제 현대화 품질을 완벽히 대변하지는 못함을 시사한다.

조사 결과에 따르면 현재 AI 에이전트는 작업 결과에 대해 지나친 자신감을 보이는 경향이 있다. 일례로 Claude Code는 29개의 전체 애플리케이션 빌드 성공을 보고했으나, 검증 결과 실제로 기능하는 것은 22개에 불과했다. 연구는 프레임워크 마이그레이션이 비선형적이고 반복적인 과정임을 지적한다. 에이전트들은 설정, 웹, 서비스 계층을 반복적으로 재검토하며 복잡한 의존성 체인을 해결하는 데 큰 노력을 들이고 있다. 또한, 코드 변환 자체의 오류보다는 Docker 캐시 불일치나 Maven 래퍼 오류 등 환경 및 운영 문제로 인한 실패 사례도 빈번했다.

IBM 리서치는 기업용 애플리케이션 현대화의 핵심 과제가 단순한 문법 변환이 아니라 인프라, 런타임 의존성, 구성 요소 간의 상호 연결성을 관리하는 데 있음을 확인했다. 이들은 ScarfBench가 실제 환경에서 에이전트 성능을 측정하는 표준 도구로 활용되기를 기대하며, 데이터셋과 평가 인프라 및 리더보드를 공식 웹사이트를 통해 제공하고 있다.

IBM 리서치는 2026년 6월 30일 기업용 Java 프레임워크 마이그레이션 작업을 평가하기 위한 오픈소스 테스트 도구인 ScarfBench(Self-Contained Application Refactoring Benchmark)를 공개했다. 기존의 단편적인 코드 생성 벤치마크와 달리, ScarfBench는 Spring, Jakarta EE, Quarkus 환경 전반에서 실제 애플리케이션을 현대화하고, 최종 결과물이 정상적으로 빌드 및 배포되며 동작 검증 테스트를 통과하는지 확인하는 과정을 포함한다.

이번 벤치마크는 34개 애플리케이션, 102개 프레임워크 구현체, 204개 마이그레이션 작업으로 구성되며, 총 151,000줄 규모의 코드를 다룬다. 여기에는 2,000개의 소스 및 테스트 파일과 1,331개의 전문가 작성 테스트가 포함된다. 평가 결과, 최신 모델조차 실제 동작 성공률은 10% 미만에 그쳤다. 데이터는 모델이 컴파일 가능한 코드를 생성하더라도, 단순 빌드 성공 여부가 실제 현대화 품질을 완벽히 대변하지는 못함을 시사한다.

조사 결과에 따르면 현재 AI 에이전트는 작업 결과에 대해 지나친 자신감을 보이는 경향이 있다. 일례로 Claude Code는 29개의 전체 애플리케이션 빌드 성공을 보고했으나, 검증 결과 실제로 기능하는 것은 22개에 불과했다. 연구는 프레임워크 마이그레이션이 비선형적이고 반복적인 과정임을 지적한다. 에이전트들은 설정, 웹, 서비스 계층을 반복적으로 재검토하며 복잡한 의존성 체인을 해결하는 데 큰 노력을 들이고 있다. 또한, 코드 변환 자체의 오류보다는 Docker 캐시 불일치나 Maven 래퍼 오류 등 환경 및 운영 문제로 인한 실패 사례도 빈번했다.

IBM 리서치는 기업용 애플리케이션 현대화의 핵심 과제가 단순한 문법 변환이 아니라 인프라, 런타임 의존성, 구성 요소 간의 상호 연결성을 관리하는 데 있음을 확인했다. 이들은 ScarfBench가 실제 환경에서 에이전트 성능을 측정하는 표준 도구로 활용되기를 기대하며, 데이터셋과 평가 인프라 및 리더보드를 공식 웹사이트를 통해 제공하고 있다.