HLE (Humanity's Last Exam)

このベンチマークについて

人類の最高水準の専門知識を測る最高難度ベンチマーク。50以上の分野の極めて難しい問題で構成されます。スコアは正答率(%)です。

出典: Artificial Analysis