新たなAI安全機関と専門ベンチマークが公開
- •非営利組織Sequentが設立され、超知能AIシステムの安全性確保に向けた手法の開発を目指す。
- •ChinaHeritaQAベンチマークにより、中国の文化遺産に関する推論能力でトップモデルが人間を上回ったことが判明した。
- •FrontierCodeおよびAARRI-Benchが登場し、AIのコーディング能力と研究支援スキルの厳格な評価が可能となった。
英国AI安全研究所とスタートアップであるTimaeusの研究者らは、超知能AIシステムの調整技術開発を目的とした非営利組織Sequentを設立した。Sequentは事後対応型の安全対策を超え、大規模で長期的なタスクにも対応可能な汎用的洞察の獲得を目指す。同組織はスケーラブル・オーバーサイトからゲーム理論まで多岐にわたる研究を計画しており、当初の資金調達目標は1億ドルから1億5000万ドル、数年以内に40名から80名の常勤スタッフ体制を目指す。
研究者らは、中国国内のユネスコ世界遺産51箇所に関する視覚言語モデルの理解力を測定するマルチモーダルベンチマーク、ChinaHeritaQAを公開した。このデータセットには2,279枚の画像と14,133件の多肢選択式質問が含まれる。歴史区分や建築分析など7つのカテゴリで評価した結果、Qwen-VL-8B-Instructモデルの正解率は81%を記録し、人間の平均スコアである67%を上回った。
コーディングエージェント「Devin」の開発元であるCognitionは、実務レベルのコーディングモデルを評価するベンチマーク「FrontierCode」を発表した。これはオープンソース開発者が選定した150のマルチプルリクエストチェーンからなるタスクで構成される。最も難易度の高い「ダイヤモンド」ティアにおいて、Claude Opus 4.8は13.4%、GPT-5.5は6.3%のスコアを記録した。
シャオミ(Xiaomi)は1兆パラメータのLLM「MiMo-V2.5-Pro-UltraSpeed」を発表し、毎秒1000トークンの生成能力を実現した。この性能は、FP4量子化と投機的デコーディング手法「DFlash」の組み合わせにより、8基のGPUを備えた汎用ノード上で達成されている。
西安交通大学と西電大学の研究者は、AIの初歩的な研究タスク処理能力を評価するAARRI-Benchを公開した。科学データの検証や非生産的な研究プロセスの認識など82のタスクで構成され、Claude-Opus-4.7は68.3%、DeepSeek-v4-Flashは約60%のパフォーマンスを示した。