Fly.io, 1초 미만 구동 일회용 컴퓨터 'Sprites' 출시
- •Fly.io가 AI Agent 작업을 위해 1초 이내에 할당되는 일회용 컴퓨터 'Sprites'를 출시했다.
- •웜(warm) 머신 풀과 S3 기반 스토리지를 활용해 기존의 분 단위 할당 지연 문제를 해결했다.
- •SQLite와 Litestream 기반의 아키텍처로 300ms 수준의 빠른 Checkpoint & Restore를 구현했다.
기술 블로거이자 개발자인 사이먼 윌리슨(Simon Willison)은 Fly.io의 공동 창립자 토마스 프타첵(Thomas Ptacek)의 설명을 인용해 일회용 컴퓨팅의 새로운 접근 방식인 'Sprites'를 소개했다. AI Agent가 생성한 신뢰할 수 없는 코드를 실행하는 등의 작업을 위해 설계된 Sprites는 기존 가상 머신의 고질적인 지연 시간 문제를 해결한다. 사용자는 머신 구동을 위해 1분씩 기다리는 대신, 1초 미만 만에 Sprite를 즉시 할당받을 수 있다. 이러한 속도는 동일한 표준 Container를 미리 실행해 둔 '웜(warm)' 머신 풀을 유지함으로써 가능해졌다. 이 시스템의 근간이 되는 스토리지 아키텍처는 '읽기 전용 캐시(read-through cache)' 모델을 사용하는 것이 특징이다. 기존 시스템이 로컬 NVMe 드라이브에 전적으로 의존하는 것과 달리, Sprites는 이 드라이브를 객체 스토리지에 저장된 데이터의 임시 캐시로 활용한다. 데이터 위치 관리를 위해 로컬 SQLite 데이터베이스 기반의 맞춤형 메타데이터 레이어를 구축했으며, 로컬 머신에 장애가 발생하더라도 정보가 유실되지 않도록 데이터베이스 변경 사항을 복제하는 Litestream 도구를 사용해 메타데이터를 안전하게 보호한다. 이러한 혁신적인 설계 덕분에 약 300밀리초 내에 완료되는 Checkpoint & Restore 기능을 포함한 초고속 작업이 가능해졌다. 이는 컴퓨터의 특정 시점 상태를 저장하고 거의 즉시 복구할 수 있음을 의미한다. Fly.io는 이러한 '일회용' 인프라를 통해 언어 모델이 생성한 코드를 안전하게 실행해야 하는 코딩 도구들에 필수적인 보안 환경을 제공한다. 이 체계는 시스템의 높은 성능을 유지하면서도 잠재적으로 위험한 코드가 호스트 시스템에 영향을 미치는 것을 효과적으로 차단한다.