이 기사의 핵심 내용은?

Tomofun이 AWS Inferentia2 칩을 도입해 AI 추론 비용을 83% 대폭 절감했다. 실시간 반려동물 행동 감지 기능을 범용 GPU에서 목적형 실리콘으로 전환했다. 모듈형 아키텍처를 통해 핵심 PyTorch 로직 수정 없이 모델 최적화를 구현했다.

펫테크 스타트업, AI 추론 비용 83% 절감

•Tomofun이 AWS Inferentia2 칩을 도입해 AI 추론 비용을 83% 대폭 절감했다.
•실시간 반려동물 행동 감지 기능을 범용 GPU에서 목적형 실리콘으로 전환했다.
•모듈형 아키텍처를 통해 핵심 PyTorch 로직 수정 없이 모델 최적화를 구현했다.

AI 기술이 일상에 보편화되는 과정에서 가장 큰 걸림돌은 모델 아키텍처의 창의성보다 이를 대규모로 배포할 때 발생하는 경제적 현실이다. 반려견 홈 카메라 ‘Furbo’를 개발한 Tomofun은 수십만 명의 사용자에게 실시간 AI 기능을 제공하면서도 지속 가능한 클라우드 운영 비용을 유지해야 하는 과제에 직면했다. 이들의 성공 사례는 고부담 운영 환경을 최적화하고자 하는 엔지니어들에게 중요한 이정표를 제시한다.

Furbo 서비스의 핵심은 VLM(Vision-Language Model)이다. 이는 시스템의 ‘눈’ 역할을 수행하며 영상 스트리밍을 해석해 반려동물의 짖음이나 움직임 같은 행동을 식별한다. 초기에는 범용 GPU 인스턴스를 사용했으나, 이는 성능은 우수해도 24시간 내내 추론을 수행하기에는 비용 효율성이 낮다는 단점이 있었다. Tomofun은 대응 속도와 지능 수준을 유지하면서도 비용 부담을 줄여야 했다.

해결책은 클라우드 환경에서 추론 효율을 극대화하기 위해 설계된 전용 기계 학습 가속기인 AWS Inferentia2였다. 다양한 그래픽 및 연산 작업을 수행하는 GPU와 달리, 이 칩은 딥러닝 모델 실행에 특화되어 있다. 작업 부하를 이 인스턴스로 전환한 결과, 엔지니어링 팀은 운영 예산 측면에서 혁신적인 83%의 비용 절감을 달성했다.

중요한 점은 이 전환 과정에서 기존 코드를 전면 수정할 필요가 없었다는 것이다. 팀은 경량화된 래퍼 클래스를 활용하여 PyTorch 기반의 BLIP 모델 구성 요소인 이미지 인코더, 텍스트 인코더, 디코더를 모듈 형태로 패키징했다. 이후 Neuron SDK를 사용해 모델 코드를 하드웨어 최적화 형식으로 컴파일했다. 이러한 모듈형 설계를 통해 시스템의 핵심 로직을 변경하지 않고도 하드웨어 백엔드만 효율적으로 교체할 수 있었다.

이번 기술적 성과는 범용 하드웨어에서 특정 AI 작업에 최적화된 컴퓨팅 스택으로 이동하는 업계의 추세를 잘 보여준다. 모델을 고가의 범용 실리콘에 강제로 맞추는 대신, 하드웨어를 모델의 필요에 맞게 조정함으로써 실험적 연구를 수익성 있는 소비자용 서비스로 전환할 수 있다. 이는 적절한 엔지니어링 전략만 뒷받침된다면, 고성능 AI 모델이 일상적인 소비자 제품에서도 경제적 타당성을 가질 수 있음을 증명한다.

AI 기술이 일상에 보편화되는 과정에서 가장 큰 걸림돌은 모델 아키텍처의 창의성보다 이를 대규모로 배포할 때 발생하는 경제적 현실이다. 반려견 홈 카메라 ‘Furbo’를 개발한 Tomofun은 수십만 명의 사용자에게 실시간 AI 기능을 제공하면서도 지속 가능한 클라우드 운영 비용을 유지해야 하는 과제에 직면했다. 이들의 성공 사례는 고부담 운영 환경을 최적화하고자 하는 엔지니어들에게 중요한 이정표를 제시한다.

Furbo 서비스의 핵심은 VLM(Vision-Language Model)이다. 이는 시스템의 ‘눈’ 역할을 수행하며 영상 스트리밍을 해석해 반려동물의 짖음이나 움직임 같은 행동을 식별한다. 초기에는 범용 GPU 인스턴스를 사용했으나, 이는 성능은 우수해도 24시간 내내 추론을 수행하기에는 비용 효율성이 낮다는 단점이 있었다. Tomofun은 대응 속도와 지능 수준을 유지하면서도 비용 부담을 줄여야 했다.

해결책은 클라우드 환경에서 추론 효율을 극대화하기 위해 설계된 전용 기계 학습 가속기인 AWS Inferentia2였다. 다양한 그래픽 및 연산 작업을 수행하는 GPU와 달리, 이 칩은 딥러닝 모델 실행에 특화되어 있다. 작업 부하를 이 인스턴스로 전환한 결과, 엔지니어링 팀은 운영 예산 측면에서 혁신적인 83%의 비용 절감을 달성했다.

중요한 점은 이 전환 과정에서 기존 코드를 전면 수정할 필요가 없었다는 것이다. 팀은 경량화된 래퍼 클래스를 활용하여 PyTorch 기반의 BLIP 모델 구성 요소인 이미지 인코더, 텍스트 인코더, 디코더를 모듈 형태로 패키징했다. 이후 Neuron SDK를 사용해 모델 코드를 하드웨어 최적화 형식으로 컴파일했다. 이러한 모듈형 설계를 통해 시스템의 핵심 로직을 변경하지 않고도 하드웨어 백엔드만 효율적으로 교체할 수 있었다.

이번 기술적 성과는 범용 하드웨어에서 특정 AI 작업에 최적화된 컴퓨팅 스택으로 이동하는 업계의 추세를 잘 보여준다. 모델을 고가의 범용 실리콘에 강제로 맞추는 대신, 하드웨어를 모델의 필요에 맞게 조정함으로써 실험적 연구를 수익성 있는 소비자용 서비스로 전환할 수 있다. 이는 적절한 엔지니어링 전략만 뒷받침된다면, 고성능 AI 모델이 일상적인 소비자 제품에서도 경제적 타당성을 가질 수 있음을 증명한다.