AWS와 Dottxt, 오차 없는 AI 데이터 생성 기술 공개
- •AWS가 SageMaker에 Dottxt Outlines를 통합하여 고정밀 스키마 준수 AI 생성을 지원한다.
- •새로운 생성 시점 검증 기술을 통해 98%의 형식 준수율과 5배 빠른 처리 속도를 달성했다.
- •금융 및 의료 분야 기업들은 이제 결정론적인 JSON 출력을 통해 업무 효율을 높일 수 있다.
거대언어모델(LLM)은 뛰어난 창의성으로 유명하지만, 기업용 데이터베이스나 의료 기록처럼 정밀함이 요구되는 영역에서 예측 불가능성은 오히려 치명적인 단점이 된다. 이에 따라 AWS는 SageMaker에서 이용 가능한 Dottxt Outlines 프레임워크를 통해 이 문제에 대한 해결책을 제시했다. 이 도구는 모델의 응답 생성 방식에 엄격한 규칙을 부여함으로써 데이터 형식이 어긋나는 '할루시네이션(환각)' 현상을 원천적으로 차단한다. 특히 AI가 문장 전체를 작성한 뒤 사후에 검토하는 방식이 아니라, 생성 과정에서 토큰별로 모델을 정밀하게 안내하는 것이 특징이다.
'생성 시점 검증'으로 불리는 이 방식은 '토큰 마스킹' 기술을 활용하여 사전에 정의된 구조를 벗어나는 단어나 기호를 AI가 선택하지 못하도록 물리적으로 차단한다. 실제로 시스템이 환자의 나이 항목에 숫자를 요구하면, AI는 사고 과정에서 아예 문자를 선택할 수 없게 된다. 그 결과 기존의 사후 처리 방식보다 훨씬 높은 신뢰도를 확보했으며, 데이터 스키마 준수율은 무려 98%까지 상승했다.
개발자 입장에서는 이제 AI를 글로벌 커머스를 지탱하는 핵심 데이터베이스나 API 등의 하류 시스템에 안전하게 연결할 수 있게 된 셈이다. 특히 AWS Marketplace를 통해 제공되는 이 기능을 활용하면, DeepSeek-R1과 같은 강력한 모델에 안전장치를 내장하여 배포할 수 있다. 무엇보다 모든 결과물이 즉시 비즈니스에 활용 가능한 기계 판독 형태로 출력되므로, 불필요한 재시도나 수동 오류 수정에 드는 비용을 획기적으로 절감할 수 있다.