この記事の要点は？

GPT-5.5のハルシネーション率は86%に達し、MITライセンスのGLM-5.2の28%と比較して大幅に高いことが判明した。 DeepSeek V4 ProはGLM-5.2の10倍以上の推論トークンを使用しながら、複雑なPythonアーキテクチャ課題の解決に失敗した。大手AIラボは知能と信頼性の向上が鈍化していることを受け、パラメーター数の増大に依存する戦略から方針を転換しつつある。

大規模AIモデルでハルシネーション率が上昇

•GPT-5.5のハルシネーション率は86%に達し、MITライセンスのGLM-5.2の28%と比較して大幅に高いことが判明した。
•DeepSeek V4 ProはGLM-5.2の10倍以上の推論トークンを使用しながら、複雑なPythonアーキテクチャ課題の解決に失敗した。
•大手AIラボは知能と信頼性の向上が鈍化していることを受け、パラメーター数の増大に依存する戦略から方針を転換しつつある。

•GPT-5.5のハルシネーション率は86%に達し、MITライセンスのGLM-5.2の28%と比較して大幅に高いことが判明した。
•DeepSeek V4 ProはGLM-5.2の10倍以上の推論トークンを使用しながら、複雑なPythonアーキテクチャ課題の解決に失敗した。
•大手AIラボは知能と信頼性の向上が鈍化していることを受け、パラメーター数の増大に依存する戦略から方針を転換しつつある。

大規模AI研究所の間で、パラメーター数や学習データの拡大が必ずしも性能向上に直結しないとする見方が強まっている。この傾向は、Claude Fable 5がリリースからわずか3日で重大な脆弱性を指摘され、米国初の国家安全保障によるモデル使用禁止措置を受けた後に加速した。人工知能解析指標（Artificial Analysis Intelligence Index）による比較テストでは、MITライセンスの下で公開されたGLM-5.2（753Bパラメーター、40Bアクティブ）が、GPT-5.5やOpus 4.8といった1-2Tパラメーター規模と推定される独自モデルと競合する性能を見せている。

モデルが誤った情報を生成するハルシネーション率においても、顕著な差が浮き彫りとなった。AA-Omniscienceベンチマークにおいて、GPT-5.5は86%という高いハルシネーション率を記録し、Fable 5は48%、Opus 4.8は36%であった。対照的にGLM-5.2は28%に抑えられている。1.6Tパラメーターと49Bアクティブを誇るDeepSeek V4 Proに至っては、ハルシネーション率が94%に達し、複雑な技術的質問に対して誤った回答を頻繁に生成した。

推論行動の分析からは、大規模モデルの非効率性が浮かび上がる。Pythonのアーキテクチャ課題において、DeepSeek V4 Proは3分52秒をかけ7.7kの推論トークンを消費したが、出力は誤りであった。一方で、GLM-5.2はわずか12秒で800の推論トークンを使用し、当該リクエストが技術的に不可能であると正しく判断した。この事実は、モデルの巨大さが論理的整合性や誤謬の識別能力を保証するものではないことを示唆している。開発現場では、raw capability（生の能力）、Uncertainty calibration（モデルが自身の知識不足を認識する能力）、計算効率の3要素をどう両立させるかという未解決のトリレンマに直面している。今後のモデル選定は、規模ではなく、現実世界での正確性とリソース効率を優先する方向にシフトしていく可能性がある。

大規模AI研究所の間で、パラメーター数や学習データの拡大が必ずしも性能向上に直結しないとする見方が強まっている。この傾向は、Claude Fable 5がリリースからわずか3日で重大な脆弱性を指摘され、米国初の国家安全保障によるモデル使用禁止措置を受けた後に加速した。人工知能解析指標（Artificial Analysis Intelligence Index）による比較テストでは、MITライセンスの下で公開されたGLM-5.2（753Bパラメーター、40Bアクティブ）が、GPT-5.5やOpus 4.8といった1-2Tパラメーター規模と推定される独自モデルと競合する性能を見せている。

モデルが誤った情報を生成するハルシネーション率においても、顕著な差が浮き彫りとなった。AA-Omniscienceベンチマークにおいて、GPT-5.5は86%という高いハルシネーション率を記録し、Fable 5は48%、Opus 4.8は36%であった。対照的にGLM-5.2は28%に抑えられている。1.6Tパラメーターと49Bアクティブを誇るDeepSeek V4 Proに至っては、ハルシネーション率が94%に達し、複雑な技術的質問に対して誤った回答を頻繁に生成した。

推論行動の分析からは、大規模モデルの非効率性が浮かび上がる。Pythonのアーキテクチャ課題において、DeepSeek V4 Proは3分52秒をかけ7.7kの推論トークンを消費したが、出力は誤りであった。一方で、GLM-5.2はわずか12秒で800の推論トークンを使用し、当該リクエストが技術的に不可能であると正しく判断した。この事実は、モデルの巨大さが論理的整合性や誤謬の識別能力を保証するものではないことを示唆している。開発現場では、raw capability（生の能力）、Uncertainty calibration（モデルが自身の知識不足を認識する能力）、計算効率の3要素をどう両立させるかという未解決のトリレンマに直面している。今後のモデル選定は、規模ではなく、現実世界での正確性とリソース効率を優先する方向にシフトしていく可能性がある。