LLMの構造化データ出力の一貫性を測る新ベンチマーク | aib vote