이 기사의 핵심 내용은?

AI 에이전트가 12시간 이상 복잡한 연구 과제를 독립적으로 수행할 수 있게 되었다. SWE-Bench와 같은 코딩 벤치마크가 포화 상태에 이르며 AI의 완전 자동화 소프트웨어 엔지니어링 능력이 증명되었다. 전문가들은 2028년 말까지 인간의 개입 없는 AI 연구 개발(R&D)이 실현될 확률을 60%로 추정한다.

AI, 스스로 진화하는 연구 시스템 구축 단계 진입

•AI 에이전트가 12시간 이상 복잡한 연구 과제를 독립적으로 수행할 수 있게 되었다.
•SWE-Bench와 같은 코딩 벤치마크가 포화 상태에 이르며 AI의 완전 자동화 소프트웨어 엔지니어링 능력이 증명되었다.
•전문가들은 2028년 말까지 인간의 개입 없는 AI 연구 개발(R&D)이 실현될 확률을 60%로 추정한다.

우리는 인공지능이 인간의 직접적인 개입 없이 스스로 반복하고 개선하는 역사적인 변곡점에 다가서고 있다. 재귀적 자기 개선(Recursive Self-Improvement)이라 불리는 이 현상은 더 이상 공상과학의 영역이 아니며, 최근 시스템 신뢰성과 코딩 자율성 부문에서의 돌파구가 만들어낸 구체적인 결과물이다. 과학적 벤치마크의 종합적인 추세를 분석해보면, 완전 자동화된 연구를 가능하게 하는 기초 요소들이 이미 결합되고 있음을 알 수 있다.

이 변화를 가장 극명하게 보여주는 증거는 코딩 역량이다. 실제 GitHub 이슈 해결 능력을 평가하는 엄격한 표준인 SWE-Bench에서 과거 시스템들은 한 자릿수 성공률을 기록하는 데 그쳤으나, 최신 모델들은 이 벤치마크를 거의 완전히 점령했다. 이는 AI가 단순한 개발 보조 도구를 넘어 독립적으로 코드를 작성, 테스트, 수정할 수 있는 소프트웨어 엔지니어로서 기능하고 있음을 시사한다.

순수 코딩 외에도 모델의 운용 시간이 극적으로 늘어나고 있다. METR(Model Evaluation and Threat Research) 이니셔티브의 측정치에 따르면, 모델이 자율적으로 신뢰성을 유지하며 작업할 수 있는 시간은 불과 몇 년 만에 분 단위에서 12시간 이상으로 증가했다. 이러한 지속적인 독립 작업 능력은 데이터 정제, 실험 시작, 결과 검증 등 연구의 비본질적인 측면을 수행하는 데 필수적이다.

중요한 점은 이러한 자동화가 과학의 근간인 인프라 영역까지 확장되고 있다는 사실이다. 최근 실험들은 AI 모델이 하드웨어 효율성을 결정짓는 기초 코드인 커널 최적화를 스스로 수행하고, 심지어 자동화된 정렬 연구까지 수행함을 보여준다. 이는 AI 에이전트가 스스로 안전 문제를 식별하고 해결하는 단계로, 과거에는 인간만이 할 수 있다고 여겨졌던 영역이다. 이 시스템들이 다른 하위 에이전트들을 관리하는 법을 배우면서, 연구가 스스로 순환하는 초기 구조가 나타나고 있다.

아직 AI 모델이 진정한 과학적 돌파구를 만드는 창의적 도약을 직접 수행하지는 못하지만, 과학 발전을 견인하는 끊임없는 반복 실험에는 매우 능숙하다. 현재의 스케일링 추세가 계속된다면 2028년까지 인간의 개입 없는 완전 자동화된 R&D가 실현될 가능성은 점점 더 높아 보인다. 우리는 기술적 루비콘 강을 건너고 있으며, 발견의 속도가 인간 연구자의 능력이 아닌 연산 속도에 의해 결정되는 미래로 향하고 있다.

우리는 인공지능이 인간의 직접적인 개입 없이 스스로 반복하고 개선하는 역사적인 변곡점에 다가서고 있다. 재귀적 자기 개선(Recursive Self-Improvement)이라 불리는 이 현상은 더 이상 공상과학의 영역이 아니며, 최근 시스템 신뢰성과 코딩 자율성 부문에서의 돌파구가 만들어낸 구체적인 결과물이다. 과학적 벤치마크의 종합적인 추세를 분석해보면, 완전 자동화된 연구를 가능하게 하는 기초 요소들이 이미 결합되고 있음을 알 수 있다.

이 변화를 가장 극명하게 보여주는 증거는 코딩 역량이다. 실제 GitHub 이슈 해결 능력을 평가하는 엄격한 표준인 SWE-Bench에서 과거 시스템들은 한 자릿수 성공률을 기록하는 데 그쳤으나, 최신 모델들은 이 벤치마크를 거의 완전히 점령했다. 이는 AI가 단순한 개발 보조 도구를 넘어 독립적으로 코드를 작성, 테스트, 수정할 수 있는 소프트웨어 엔지니어로서 기능하고 있음을 시사한다.

순수 코딩 외에도 모델의 운용 시간이 극적으로 늘어나고 있다. METR(Model Evaluation and Threat Research) 이니셔티브의 측정치에 따르면, 모델이 자율적으로 신뢰성을 유지하며 작업할 수 있는 시간은 불과 몇 년 만에 분 단위에서 12시간 이상으로 증가했다. 이러한 지속적인 독립 작업 능력은 데이터 정제, 실험 시작, 결과 검증 등 연구의 비본질적인 측면을 수행하는 데 필수적이다.

중요한 점은 이러한 자동화가 과학의 근간인 인프라 영역까지 확장되고 있다는 사실이다. 최근 실험들은 AI 모델이 하드웨어 효율성을 결정짓는 기초 코드인 커널 최적화를 스스로 수행하고, 심지어 자동화된 정렬 연구까지 수행함을 보여준다. 이는 AI 에이전트가 스스로 안전 문제를 식별하고 해결하는 단계로, 과거에는 인간만이 할 수 있다고 여겨졌던 영역이다. 이 시스템들이 다른 하위 에이전트들을 관리하는 법을 배우면서, 연구가 스스로 순환하는 초기 구조가 나타나고 있다.

아직 AI 모델이 진정한 과학적 돌파구를 만드는 창의적 도약을 직접 수행하지는 못하지만, 과학 발전을 견인하는 끊임없는 반복 실험에는 매우 능숙하다. 현재의 스케일링 추세가 계속된다면 2028년까지 인간의 개입 없는 완전 자동화된 R&D가 실현될 가능성은 점점 더 높아 보인다. 우리는 기술적 루비콘 강을 건너고 있으며, 발견의 속도가 인간 연구자의 능력이 아닌 연산 속도에 의해 결정되는 미래로 향하고 있다.