この記事の要点は？

Q: この記事の要点は？

NatureBenchは、Nature系列誌の90の科学的タスクを用いてAIコーディングエージェントを評価する。 テストされた最強のモデルであっても、既存のSOTAベンチマークを上回ったのはタスクの17.8%にとどまった。 エージェントは科学的革新ではなく、主に手法の変換によってタスクを成功させている。

NatureBenchは、Nature系列誌の90の科学的タスクを用いてAIコーディングエージェントを評価する。テストされた最強のモデルであっても、既存のSOTAベンチマークを上回ったのはタスクの17.8%にとどまった。エージェントは科学的革新ではなく、主に手法の変換によってタスクを成功させている。

NatureBench、科学的発見におけるAIエージェントを評価

•NatureBenchは、Nature系列誌の90の科学的タスクを用いてAIコーディングエージェントを評価する。
•テストされた最強のモデルであっても、既存のSOTAベンチマークを上回ったのはタスクの17.8%にとどまった。
•エージェントは科学的革新ではなく、主に手法の変換によってタスクを成功させている。

NatureBenchは、Nature系列の査読付き論文から抽出された90の科学的タスクを特徴とする、新しい学際的ベンチマークである。研究チームは、AIコーディングエージェント（ソフトウェアの記述と実行が可能なシステム）が単なる既知の結果の再現にとどまらず、科学的発見を行えるかどうかを評価するためにこのスイートを開発した。ベンチマークには、ソース論文から標準化されたコンテナ環境を作成する自動パイプライン「NatureGym」が採用されており、環境の断片化という課題に対処している。

ウェブ検索を無効にした厳格なプロトコル下で10種類の最先端エージェント構成を評価したところ、最も能力の高いモデルでも、g>0.1の基準において既存のSOTA（最先端）結果を上回ったのはわずか17.8%であった。詳細な分析の結果、エージェントの成功の大部分は手法の変換によるものであることが判明した。これは科学的タスクを馴染みのある教師あり予測問題へと再構成する手法であり、真の科学的イノベーションを生み出しているわけではない。大半の失敗は、タスクそのものの理解不足ではなく、手法の選択ミスや計算予算の不足に起因している。研究チームは、このベンチマークとNatureGymパイプライン、および検証用の公開リーダーボードを公開した。

NatureBenchは、Nature系列の査読付き論文から抽出された90の科学的タスクを特徴とする、新しい学際的ベンチマークである。研究チームは、AIコーディングエージェント（ソフトウェアの記述と実行が可能なシステム）が単なる既知の結果の再現にとどまらず、科学的発見を行えるかどうかを評価するためにこのスイートを開発した。ベンチマークには、ソース論文から標準化されたコンテナ環境を作成する自動パイプライン「NatureGym」が採用されており、環境の断片化という課題に対処している。

ウェブ検索を無効にした厳格なプロトコル下で10種類の最先端エージェント構成を評価したところ、最も能力の高いモデルでも、g>0.1の基準において既存のSOTA（最先端）結果を上回ったのはわずか17.8%であった。詳細な分析の結果、エージェントの成功の大部分は手法の変換によるものであることが判明した。これは科学的タスクを馴染みのある教師あり予測問題へと再構成する手法であり、真の科学的イノベーションを生み出しているわけではない。大半の失敗は、タスクそのものの理解不足ではなく、手法の選択ミスや計算予算の不足に起因している。研究チームは、このベンチマークとNatureGymパイプライン、および検証用の公開リーダーボードを公開した。