ペットテック企業、AI推論コストを83%削減
- •TomofunがAWS Inferentia2を活用しAI推論コストを83%削減。
- •ペットの行動検知モデルをGPUから専用チップへ移行。
- •モジュール化された構造によりPyTorchロジックの修正なしで最適化を実現。
AIを広く普及させる上での課題は、モデル構造の創造性そのものよりも、大規模展開に伴う経済的な現実に集約される。ペット用カメラ「Furbo」を開発するTomofunにとって、数百万人以上のユーザーに対してリアルタイムのAI機能を提供しつつ、クラウドコストをいかに持続可能な水準に保つかは喫緊の課題であった。彼らの成功事例は、高負荷な本番環境の最適化を目指すエンジニアにとって貴重な指針となる。
同社のサービスの中核を担うのは、視覚と言語を組み合わせたAIモデル(VLM)だ。このモデルはシステム上の「目」として機能し、動画ストリームを解析してペットの吠え声や動きといった行動を識別する。当初、これらのモデルは汎用的なGPUインスタンス上で動作していた。性能面では優秀だが、24時間365日の連続的な推論処理を行うGPUは運用コストが非常に高額になるという側面があった。
転換点となったのは、クラウド環境での推論処理に特化した機械学習アクセラレーターであるAWS Inferentia2の採用だ。広範な画像・計算タスクをこなすGPUとは異なり、この専用チップはディープラーニングモデルを最大効率で実行するよう調整されている。エンジニアチームはワークロードをこれに移行させることで、運用予算を劇的に改善する83%のコスト削減を達成した。
今回の移行において、既存のコードベースをすべて破棄する必要はなかった。チームは軽量なラッパーを作成し、PyTorchを基盤とするBLIPモデルの各構成要素(画像エンコーダー、テキストエンコーダー、テキストデコーダー)をモジュール化してパッケージ化した。これらをNeuron SDKを用いてコンパイルすることで、ハードウェアに最適化された形式へと変換したのである。この手法により、基盤となるAIロジックを変更することなくハードウェアの切り替えが可能となった。
この技術的な成功は、業界全体の傾向を象徴している。汎用的なハードウェアに依存するモデル開発から、特定のAIタスクに最適化された計算スタックの活用へとシフトしつつあるのだ。モデルを高額な汎用チップに押し付けるのではなく、要件に合わせてハードウェアを選定することで、実験的な研究を収益性の高い消費者向け製品へと変貌させることができる。適切な戦略さえあれば、高性能なAIモデルを日常的な製品で経済的に運用することは十分に可能なのだ。