시스템 엔지니어링 성능 평가를 위한 SysEngBench 도입
Semantic Scholar
2026년 6월 9일 (화)
- •연구진이 시스템 엔지니어링 작업에서 대규모 언어 모델의 성능을 측정하는 SysEngBench를 새롭게 도입했다.
- •GPT-4o와 Claude 3.5 Sonnet은 시스템 엔지니어링 분야에서 95% 이상의 정확도를 달성했다.
- •Phi-3.5-mini-instruct와 같은 중간 규모 모델은 낮은 연산 요구량으로도 높은 수준의 정확도를 제공한다.
라이언 벨(Ryan Bell), 라이언 롱쇼어(Ryan Longshore), 레이먼드 마다키(Raymond Madachy)를 포함한 연구진이 시스템 엔지니어링(SE) 분야에서 대규모 언어 모델(LLM)의 수행 능력을 평가하기 위한 벤치마크인 SysEngBench를 발표했다. 2026년 6월 4일 'Systems Engineering' 저널에 게재된 이 연구는 요구사항 분석, 시스템 아키텍처 설계, 위험 관리, 이해관계자 소통 등 그간 정량화되지 않았던 LLM의 전문적 업무 수행 능력을 체계적으로 분석했다.
평가 결과, 모델의 규모와 성능 사이에는 유의미한 상관관계가 확인됐다. GPT-4o와 Claude 3.5 Sonnet 등 상위 모델들은 여러 범주에서 95%가 넘는 일관된 정확도를 보이며 인간에 준하는 성능을 입증했다. 반면 Llama-3.2 1B와 같은 소형 모델들은 상대적으로 높은 결함 밀도와 낮은 정확도를 기록했다. 다만 파레토 분석(Pareto analysis)을 통해 살펴본 결과, Phi-3.5-mini-instruct와 같은 중간 규모 모델들은 낮은 컴퓨팅 자원 소모량으로도 경쟁력 있는 정확도를 보여주었다. 이번 연구는 실무자들이 모델의 효율성과 성능 사이의 최적 균형을 판단할 수 있는 체계적인 기준을 제시하며, 향후 파인튜닝과 도메인 특화 지식 통합을 통해 시스템 엔지니어링 분야 내 AI 활용도를 높일 것으로 기대된다.