AI 안전 기구 및 전문 벤치마크 잇따라 공개
- •비영리 조직 Sequent가 슈퍼인텔리전스 AI 시스템의 정렬 방법론 연구를 위해 설립됐다.
- •ChinaHeritaQA 벤치마크 결과, 일부 모델이 중국 문화유산 추론 분야에서 인간의 평균 점수를 상회했다.
- •FrontierCode와 AARRI-Bench가 각각 수준 높은 코딩 능력과 학술적 연구 보조 역량을 평가하기 위해 출시됐다.
영국 AI 안전 연구소와 스타트업 Timaeus의 연구원들이 결성한 Sequent가 초지능 AI 시스템을 위한 정렬 기법 개발에 나선다. Sequent는 사후 대응적 안전 조치를 넘어 대규모 장기 과제에서도 안전을 보장하는 보편적 통찰력을 도출하는 데 주력한다. 이 조직은 확장 가능한 감독과 게임 이론을 아우르는 연구 포트폴리오를 구성할 계획이며, 향후 수년 내 40~80명의 정규 인력을 확보하고 1억~1억 5천만 달러 규모의 초기 자금을 유치할 방침이다.
한편 연구진은 중국 내 51개 유네스코 세계문화유산을 대상으로 비전-언어 모델의 이해도를 평가하는 ChinaHeritaQA 데이터셋을 공개했다. 이 데이터셋은 2,279장의 이미지와 14,133개의 객관식 문항으로 구성됐다. 역사적 시대 구분 및 건축 분석 등 7개 범주에서 Qwen-VL-8B-Instruct 모델을 테스트한 결과, 해당 모델은 81%의 정확도를 기록해 67%인 인간 평균 점수를 넘어섰다.
Devin 코딩 에이전트 개발사인 Cognition은 실제 제품 수준의 코딩 모델을 평가하는 FrontierCode를 발표했다. 150개의 수작업 과제로 구성된 이 벤치마크는 코드 병합 가능성에 초점을 맞췄다. 가장 높은 난도인 다이아몬드 등급에서 Claude Opus 4.8은 13.4%, GPT-5.5는 6.3%의 점수를 획득했다. 또한 샤오미가 공개한 1조 파라미터 모델 MiMo-V2.5-Pro-UltraSpeed는 초당 1,000 토큰을 생성하며 성능 효율화를 증명했다. 이는 4비트 양자화 기술인 FP4와 투기적 디코딩 기법을 통해 일반 GPU 노드에서 구현됐다.
시안교통대와 시안전자과학대 연구진은 기초 연구 보조 과제를 수행하는 AI의 능력을 평가하기 위해 AARRI-Bench를 출시했다. 과학 데이터 검증 등 82개의 과제를 통해 Claude-Opus-4.7은 68.3%, DeepSeek-v4-Flash는 약 60%의 성능을 보였다. 이 벤치마크는 학술 환경에서의 전문적 자율성과 기술적 숙련도를 중심으로 설계됐다.