AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

AI 에이전트 스킬 검증 도구 'skillscore' 공개

AI 에이전트 스킬 검증 도구 'skillscore' 공개

DEV.to
2026년 6월 14일 (일)
  • •개발자 사이드 알리 알카멜(Sayed Ali Alkamel)이 AI 에이전트의 SKILL.md 파일을 0~100점으로 평가하는 CLI 도구 'skillscore'를 출시했다.
  • •해당 도구는 Anthropic, OpenAI, 구글 등 주요 기업의 공식 작성 가이드를 기준으로 AI 에이전트 스킬 파일의 품질을 검증한다.
  • •CI/CD 환경에 최적화되어 오프라인에서도 작동하며, SARIF 형식 출력을 통해 GitHub 풀 리퀘스트에서 이슈를 자동 탐지한다.
  • •개발자 사이드 알리 알카멜(Sayed Ali Alkamel)이 AI 에이전트의 SKILL.md 파일을 0~100점으로 평가하는 CLI 도구 'skillscore'를 출시했다.
  • •해당 도구는 Anthropic, OpenAI, 구글 등 주요 기업의 공식 작성 가이드를 기준으로 AI 에이전트 스킬 파일의 품질을 검증한다.
  • •CI/CD 환경에 최적화되어 오프라인에서도 작동하며, SARIF 형식 출력을 통해 GitHub 풀 리퀘스트에서 이슈를 자동 탐지한다.

개발자 사이드 알리 알카멜이 AI 에이전트의 SKILL.md 파일을 검사하고 점수를 매기는 오픈소스 CLI(명령줄 인터페이스) 도구인 'skillscore'를 발표했다. 이 도구는 Anthropic, OpenAI, 구글, Flutter의 공식 가이드를 기반으로 스킬 파일을 평가하며, 0점부터 100점까지의 품질 점수와 등급, 구체적인 수정 권고안을 제공한다.

AI 에이전트의 스킬은 일반적으로 YAML 형식의 메타데이터와 Markdown 형식의 지침으로 구성된다. 이러한 설명은 모델이 한 번에 처리할 수 있는 정보량인 컨텍스트 윈도우(context window)에 지속적으로 상주하므로, 작성이 미흡할 경우 토큰 낭비나 에이전트의 오작동을 유발할 수 있다. skillscore는 메타데이터 유효성, 설명의 질, 간결성, 지침 구조 등 7가지 항목을 기준으로 규칙을 강제한다.

도구는 완전한 오프라인 환경에서 결정론적으로 작동하며 동일한 입력에 대해 항상 일관된 결과를 도출한다. CI/CD 통합을 염두에 두고 설계되어, 개발자가 '--min-score 80'과 같은 임계값을 설정해 배포 조건을 제어할 수 있다. 또한, JSON 및 SARIF 2.1.0 형식으로 출력을 지원해 GitHub상에서 코드 문제를 직접 주석으로 표시할 수 있다.

평가 규칙은 7개 범주에 따라 가중치가 적용되며, 특히 스크립트 문서화가 미흡할 경우 안전성 항목에서 최대 15점이 감점된다. 실제로 Flutter 팀의 위젯 테스트 스킬을 검증한 결과 90점을 기록했으며, 도구는 경계 조건 누락이나 안티패턴을 찾아내 수정 방향을 제시했다. 사용자는 모든 진단 결과에 대해 규칙의 근거를 요청할 수 있다.

현재 Dart 언어로 제작된 v0.1.0 버전이 배포 중이며, 독립적인 CLI 도구 혹은 타 애플리케이션에 내장 가능한 라이브러리 형태로 활용 가능하다. 향후 공급업체별 타겟 확대, 단순 오류 자동 수정 모드, GitHub Action 패키지 출시가 예정되어 있다.

개발자 사이드 알리 알카멜이 AI 에이전트의 SKILL.md 파일을 검사하고 점수를 매기는 오픈소스 CLI(명령줄 인터페이스) 도구인 'skillscore'를 발표했다. 이 도구는 Anthropic, OpenAI, 구글, Flutter의 공식 가이드를 기반으로 스킬 파일을 평가하며, 0점부터 100점까지의 품질 점수와 등급, 구체적인 수정 권고안을 제공한다.

AI 에이전트의 스킬은 일반적으로 YAML 형식의 메타데이터와 Markdown 형식의 지침으로 구성된다. 이러한 설명은 모델이 한 번에 처리할 수 있는 정보량인 컨텍스트 윈도우(context window)에 지속적으로 상주하므로, 작성이 미흡할 경우 토큰 낭비나 에이전트의 오작동을 유발할 수 있다. skillscore는 메타데이터 유효성, 설명의 질, 간결성, 지침 구조 등 7가지 항목을 기준으로 규칙을 강제한다.

도구는 완전한 오프라인 환경에서 결정론적으로 작동하며 동일한 입력에 대해 항상 일관된 결과를 도출한다. CI/CD 통합을 염두에 두고 설계되어, 개발자가 '--min-score 80'과 같은 임계값을 설정해 배포 조건을 제어할 수 있다. 또한, JSON 및 SARIF 2.1.0 형식으로 출력을 지원해 GitHub상에서 코드 문제를 직접 주석으로 표시할 수 있다.

평가 규칙은 7개 범주에 따라 가중치가 적용되며, 특히 스크립트 문서화가 미흡할 경우 안전성 항목에서 최대 15점이 감점된다. 실제로 Flutter 팀의 위젯 테스트 스킬을 검증한 결과 90점을 기록했으며, 도구는 경계 조건 누락이나 안티패턴을 찾아내 수정 방향을 제시했다. 사용자는 모든 진단 결과에 대해 규칙의 근거를 요청할 수 있다.

현재 Dart 언어로 제작된 v0.1.0 버전이 배포 중이며, 독립적인 CLI 도구 혹은 타 애플리케이션에 내장 가능한 라이브러리 형태로 활용 가능하다. 향후 공급업체별 타겟 확대, 단순 오류 자동 수정 모드, GitHub Action 패키지 출시가 예정되어 있다.

원문 보기 (영어)·2026년 6월 12일
#skillscore#cli#ai agents#dart#linting#ci cd