이 기사의 핵심 내용은?

Multi-LCB는 LiveCodeBench를 확장해 12개 프로그래밍 언어 전반에 걸친 코드 생성 성능 평가를 지원한다. 24개의 LLM을 평가한 결과, 언어 간 성능 격차와 파이썬 편중(Python overfitting) 현상이 뚜렷하게 나타났다. 입출력 표준 규격을 도입해 다양한 프로그래밍 환경에서도 일관된 평가 체계를 유지하도록 설계됐다.

Multi-LCB, 12개 언어 대상 LLM 코딩 평가 확대

•Multi-LCB는 LiveCodeBench를 확장해 12개 프로그래밍 언어 전반에 걸친 코드 생성 성능 평가를 지원한다.
•24개의 LLM을 평가한 결과, 언어 간 성능 격차와 파이썬 편중(Python overfitting) 현상이 뚜렷하게 나타났다.
•입출력 표준 규격을 도입해 다양한 프로그래밍 환경에서도 일관된 평가 체계를 유지하도록 설계됐다.

•Multi-LCB는 LiveCodeBench를 확장해 12개 프로그래밍 언어 전반에 걸친 코드 생성 성능 평가를 지원한다.
•24개의 LLM을 평가한 결과, 언어 간 성능 격차와 파이썬 편중(Python overfitting) 현상이 뚜렷하게 나타났다.
•입출력 표준 규격을 도입해 다양한 프로그래밍 환경에서도 일관된 평가 체계를 유지하도록 설계됐다.

연구진이 12개 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 생성 능력을 평가할 수 있는 새로운 벤치마크 'Multi-LCB'를 공개했다. 이는 기존 LiveCodeBench(LCB)가 파이썬 환경에만 국한되었던 한계를 극복하기 위해 마련되었다. 기존 LCB 데이터셋의 파이썬 과제를 다른 언어로 전환하는 방식을 택해, 오염(contamination) 방지 및 일관된 평가 프로토콜을 엄격히 준수한다. 해당 시스템은 기존 LCB 형식과 완벽히 호환되어 벤치마크의 향후 업데이트도 자동으로 추적 가능하다.

평가 방법론은 모델이 표준 입력(stdin)에서 데이터를 읽고 표준 출력(stdout)으로 결과를 반환하는 입출력 형식을 취한다. 연구진은 12개 지원 언어 각각에 최적화된 평가 스크립트를 개발해 다양한 프로그래밍 환경에서도 일관된 성능 측정이 이루어지도록 했다. 이 구조는 단일 턴 코딩 과제는 물론, 복잡한 단계별 작업을 수행하는 에이전틱 AI 시나리오에서도 모델의 능력을 시험할 수 있게 한다.

연구진이 24개 LLM을 대상으로 이 프레임워크를 적용한 결과, 모델 간 성능 차이가 상당히 큰 것으로 나타났다. 특히 파이썬 이외의 언어에서는 성능이 저하되는 파이썬 편중 현상과 특정 언어에 대한 데이터 오염 사례도 확인되었다. 이번 결과는 많은 모델이 파이썬을 벗어난 환경에서는 추론 및 지시 이행 능력을 유지하는 데 어려움을 겪는다는 점을 시사한다. 따라서 이 벤치마크는 개발자들이 모델의 다국어 코딩 능력을 엄격히 평가하고 학습 전략의 취약점을 파악하는 도구로 활용될 전망이다.

연구진이 12개 프로그래밍 언어에서 대규모 언어 모델(LLM)의 코드 생성 능력을 평가할 수 있는 새로운 벤치마크 'Multi-LCB'를 공개했다. 이는 기존 LiveCodeBench(LCB)가 파이썬 환경에만 국한되었던 한계를 극복하기 위해 마련되었다. 기존 LCB 데이터셋의 파이썬 과제를 다른 언어로 전환하는 방식을 택해, 오염(contamination) 방지 및 일관된 평가 프로토콜을 엄격히 준수한다. 해당 시스템은 기존 LCB 형식과 완벽히 호환되어 벤치마크의 향후 업데이트도 자동으로 추적 가능하다.

평가 방법론은 모델이 표준 입력(stdin)에서 데이터를 읽고 표준 출력(stdout)으로 결과를 반환하는 입출력 형식을 취한다. 연구진은 12개 지원 언어 각각에 최적화된 평가 스크립트를 개발해 다양한 프로그래밍 환경에서도 일관된 성능 측정이 이루어지도록 했다. 이 구조는 단일 턴 코딩 과제는 물론, 복잡한 단계별 작업을 수행하는 에이전틱 AI 시나리오에서도 모델의 능력을 시험할 수 있게 한다.

연구진이 24개 LLM을 대상으로 이 프레임워크를 적용한 결과, 모델 간 성능 차이가 상당히 큰 것으로 나타났다. 특히 파이썬 이외의 언어에서는 성능이 저하되는 파이썬 편중 현상과 특정 언어에 대한 데이터 오염 사례도 확인되었다. 이번 결과는 많은 모델이 파이썬을 벗어난 환경에서는 추론 및 지시 이행 능력을 유지하는 데 어려움을 겪는다는 점을 시사한다. 따라서 이 벤치마크는 개발자들이 모델의 다국어 코딩 능력을 엄격히 평가하고 학습 전략의 취약점을 파악하는 도구로 활용될 전망이다.