신뢰 잃은 AI 벤치마크, 측정 도구의 결함 발견 | aib vote