TerminalBench Hard

이 벤치마크는?

실제 터미널 환경에서 AI 에이전트가 복잡한 셸 명령, 파일 조작, 시스템 작업을 수행하는 능력을 평가하는 Hard 난이도 벤치마크. 점수는 성공률(%)입니다.

출처: Artificial Analysis