Google DeepMind、AI学習の分散化技術を刷新
- •Google DeepMindは、回復力に優れた分散型学習アーキテクチャ「Decoupled DiLoCo」を発表した
- •地理的に離れたデータセンター間での学習を可能にし、必要なネットワーク帯域幅を大幅に削減した
- •ハードウェア故障時にも学習を継続する自己修復型の構造を実現している
大規模AIモデルの学習は、もはや単なる計算上の課題を超え、物流的な難行へと変貌を遂げた。従来、大規模言語モデル(Large Language Model)の学習には数千もの演算チップ間での厳密な同期が必要であり、一度の故障がプロセス全体を停止させるリスクを抱えていた。Google DeepMindが発表した研究「Decoupled DiLoCo」は、グローバルなインフラの現実を前提とした、回復力の高い分散アーキテクチャを再定義するものである。
このシステムの本質は、学習プロセスを独立したコンピューティングの「島」へと分割することにある。単一の緊密に結合されたクラスタから離れ、より柔軟な設計を採用することで、ネットワークの一部が停止しても運用全体が麻痺しない構造を確保した。これは現在、学習の黄金基準とされるリアルタイム同期の維持が困難かつ高コストである遠隔地のデータセンター間で連携する際、極めて重要な意味を持つ。
この技術革新の核となるのは、非同期学習(Asynchronous Training)である。これは、ユニット間が完全に同期していなくても学習を継続できる手法であり、地域間を繋ぐ高速・超低遅延ネットワークへの過度な依存を軽減する。研究チームは実際に、米国内の4つの異なる地域に分散した環境で、標準的なネットワーク速度を用い120億パラメータのモデルを学習させることに成功した。
特に注目すべきは、システムの自己修復能力だ。厳格なストレステストにおいて、稼働中の一部を人為的に切断する擬似的なハードウェア故障を発生させたが、アーキテクチャは中断することなく学習を続行した。これは、カオスエンジニアリング(Chaos Engineering)の考え方を推し進め、不完全な環境下での耐性を証明する結果となった。
この成果は、今後のAI開発のあり方を大きく転換させる可能性がある。学習プロセスを切り離すことで、組織は異なる世代のハードウェアを同一のジョブに混在させ、遊休状態の古い計算資源を有効活用できるようになった。巨大で壊れやすい単一のデータセンターという制約から脱却し、より効率的で障害に強いAI開発環境への道が開かれたと言える。