Sakana AIが「考えながら話す」リアルタイム対話AI、KAMEを発表
- •KAMEアーキテクチャにより、リアルタイム対話AIが「考えながら話す」ことが可能になった
- •高速なフロントエンドモデルと非同期で切り替え可能なバックエンドLLMによるデュアルストリーム設計を採用
- •高い推論能力を維持しつつ、システム遅延を大幅に削減することに成功した
人間が会話する際、思考を完全に整理してから口を開くことは稀である。言葉を発し始め、話す過程で論理や構成が固まっていくのが自然なプロセスであり、これまでのAIモデルが再現に苦戦してきた領域だ。従来の音声AIは「浅く速い回答」か「思考に時間をかけすぎて不自然な沈黙が生じる」という二者択一の課題を抱えていた。
Sakana AIが導入したKAMEは、この速度と知能の両立を目指した「タンデムアーキテクチャ」である。このシステムは、話す役割と考える役割を分離している。軽量で高速な音声対話モデルが会話の即時性を担い、AIが言葉を発し始めるまでの遅延を最小限に抑えることで、人間に近いレスポンスを実現している。
一方、バックエンドではより強力な大規模言語モデル(Large Language Model)が非同期的に動作する。このエンジンが複雑な推論を行い、洗練された回答候補を生成する。生成された情報は「オラクル(助言)」としてリアルタイムに会話へ注入され、回答を完了するまで待機することなくフロントエンドの語りを誘導する仕組みだ。
KAMEの最大の特徴は、そのモジュール性にある。ユーザーは会話の要件に合わせて、Claude OpusやGPT-4.1、Gemini 2.5 Flashといった異なる大規模言語モデルを自由に切り替えることが可能だ。技術的な問題解決には論理重視のモデルを、創造的な対話には表現力豊かなモデルを選ぶなど、フロントエンドを変更せずに柔軟な対応ができる。
「考えてから話す」から「考えながら話す」への転換は、AIを単なるツールではなく真のパートナーへと昇華させる重要な一歩である。推論と音声生成を分離することで、Sakana AIは、人間同士の親密さを維持しつつ高い価値を提供する対話型AIの新たな指針を示した。人間本来の認知ペースに技術が追いつくことで、AIとの対話はより直感的で自然なものへと進化するだろう。