LlamaStash 성능 벤치마크 및 비교 분석
- •LlamaStash는 llama-server 직접 실행 대비 1% 미만의 성능 오버헤드를 기록했다.
- •여러 하드웨어 환경에서 Ollama와 LM Studio보다 뛰어난 디코딩 처리량을 보였다.
- •Ollama는 중복 처리 문제로 인해 RAG 프리필 속도가 직접 실행 방식보다 최대 52배 느렸다.
로컬 LLM 추론 백엔드인 llama-server의 래퍼(Wrapper) LlamaStash가 직접 서버를 구동하는 것과 비교해 무시할 만한 수준의 성능 오버헤드를 기록했다. AMD APU, Apple Silicon, NVIDIA 하드웨어에서 벤치마크를 수행한 결과, 동일한 설정값을 사용했을 때 원본 llama-server 처리량의 1% 이내 성능을 유지했다. 특히 토큰 생성 속도(디코딩)와 첫 토큰 생성 시간(TTFT)에 측정 가능한 영향이 없었으며, 모든 결과는 개발자가 설정한 2% 성능 저하 임계값보다 낮았다.
타 도구와의 성능 비교에서 LlamaStash는 최적화된 기본값을 바탕으로 우위를 점했다. 별도의 설정 없이 실행했을 때 Apple Silicon 환경에서 특정 모델은 원본 대비 7.3% 향상된 디코딩 속도를 보였다. 반면 Ollama는 AMD APU 하드웨어에서 원본 서버보다 처리량이 38~72% 낮았으며, 문서 재판독 등의 중복 처리로 인해 RAG 프리필 지연이 심각하게 나타났다. LM Studio는 AMD Strix Halo에서 ROCm 런타임 안정성 문제를 겪었으며, OpenAI 호환 심(Shim) 및 즉시 모델 로딩 과정으로 인해 첫 토큰 응답이 170~2300ms 지연되는 현상을 보였다.
이번 테스트는 명령행 입력을 동일하게 맞추고 모든 도구에서 표준 HTTP 엔드포인트 통신을 사용하여 공정성을 기했다. 평가는 chat_turn, agent_decode, rag_prefill, parallel_4 등 네 가지 작업 부하를 대상으로 지속적인 생성 처리량과 지연 시간을 측정했다. 실험에는 AMD Ryzen AI Max+ 395, Apple M1, NVIDIA RTX 3050 Ti 등 다양한 하드웨어가 사용되었으며, 모든 결과는 재부팅 등의 노이즈를 배제한 통제된 환경에서 반복 검증되었다. LlamaStash 프록시 자체의 지연 시간은 서브 밀리초(sub-millisecond) 단위로, 로컬 추론 작업에서 높은 효율성을 유지함이 확인되었다.