AI 추론 모델 훈련의 함정, ‘GRPO’ 편향성 발견 | aib vote