이 기사의 핵심 내용은?

NatureBench는 AI 코딩 에이전트를 평가하기 위해 Nature 계열 저널의 90가지 과학적 과제를 도입했다. 가장 성능이 뛰어난 모델도 기존 SOTA 벤치마크 대비 17.8%의 과제에서만 우수한 성적을 거뒀다. AI 에이전트는 창의적인 과학적 혁신보다는 주로 방법론적 번역을 통해 문제를 해결하는 경향을 보인다.

NatureBench, AI 코딩 에이전트의 과학적 발견 능력 평가

•NatureBench는 AI 코딩 에이전트를 평가하기 위해 Nature 계열 저널의 90가지 과학적 과제를 도입했다.
•가장 성능이 뛰어난 모델도 기존 SOTA 벤치마크 대비 17.8%의 과제에서만 우수한 성적을 거뒀다.
•AI 에이전트는 창의적인 과학적 혁신보다는 주로 방법론적 번역을 통해 문제를 해결하는 경향을 보인다.

NatureBench는 Nature 계열 학술지에 게재된 동료 심사를 거친 90가지 과학적 과제를 다루는 새로운 융합형 벤치마크이다. 연구진은 AI 코딩 에이전트(소프트웨어를 스스로 작성하고 실행할 수 있는 시스템)가 단순히 기존 결과를 재현하는 수준을 넘어 실제 과학적 발견을 수행할 수 있는지 평가하고자 이 제품군을 개발했다. 특히 환경 파편화 문제를 해결하기 위해 표준화된 컨테이너화 환경을 구축하는 자동화 파이프라인인 NatureGym을 활용한다.

웹 검색이 차단된 엄격한 프로토콜 하에 10가지 최첨단 에이전트 구성을 평가한 결과, 가장 우수한 모델도 g>0.1 기준에서 기존 SOTA 대비 17.8%의 과제에서만 앞선 성과를 보였다. 분석 결과, 에이전트들은 독창적인 과학적 혁신을 이뤄내기보다 과학적 과제를 익숙한 지도 예측 문제로 재구성하는 방법론적 번역에 의존해 성공을 거두는 것으로 나타났다. 대부분의 실패는 작업 자체를 이해하지 못해서가 아니라 부적절한 방법 선택이나 불충분한 컴퓨팅 자원에서 비롯됐다. 연구진은 현재 벤치마크와 NatureGym 파이프라인, 그리고 공개 리더보드를 배포한 상태이다.

NatureBench는 Nature 계열 학술지에 게재된 동료 심사를 거친 90가지 과학적 과제를 다루는 새로운 융합형 벤치마크이다. 연구진은 AI 코딩 에이전트(소프트웨어를 스스로 작성하고 실행할 수 있는 시스템)가 단순히 기존 결과를 재현하는 수준을 넘어 실제 과학적 발견을 수행할 수 있는지 평가하고자 이 제품군을 개발했다. 특히 환경 파편화 문제를 해결하기 위해 표준화된 컨테이너화 환경을 구축하는 자동화 파이프라인인 NatureGym을 활용한다.

웹 검색이 차단된 엄격한 프로토콜 하에 10가지 최첨단 에이전트 구성을 평가한 결과, 가장 우수한 모델도 g>0.1 기준에서 기존 SOTA 대비 17.8%의 과제에서만 앞선 성과를 보였다. 분석 결과, 에이전트들은 독창적인 과학적 혁신을 이뤄내기보다 과학적 과제를 익숙한 지도 예측 문제로 재구성하는 방법론적 번역에 의존해 성공을 거두는 것으로 나타났다. 대부분의 실패는 작업 자체를 이해하지 못해서가 아니라 부적절한 방법 선택이나 불충분한 컴퓨팅 자원에서 비롯됐다. 연구진은 현재 벤치마크와 NatureGym 파이프라인, 그리고 공개 리더보드를 배포한 상태이다.