이 기사의 핵심 내용은?

LlamaStash는 llama-server 직접 실행 대비 1% 미만의 성능 오버헤드를 기록했다. 여러 하드웨어 환경에서 Ollama와 LM Studio보다 뛰어난 디코딩 처리량을 보였다. Ollama는 중복 처리 문제로 인해 RAG 프리필 속도가 직접 실행 방식보다 최대 52배 느렸다.

LlamaStash 성능 벤치마크 및 비교 분석

•LlamaStash는 llama-server 직접 실행 대비 1% 미만의 성능 오버헤드를 기록했다.
•여러 하드웨어 환경에서 Ollama와 LM Studio보다 뛰어난 디코딩 처리량을 보였다.
•Ollama는 중복 처리 문제로 인해 RAG 프리필 속도가 직접 실행 방식보다 최대 52배 느렸다.

로컬 LLM 추론 백엔드인 llama-server의 래퍼(Wrapper) LlamaStash가 직접 서버를 구동하는 것과 비교해 무시할 만한 수준의 성능 오버헤드를 기록했다. AMD APU, Apple Silicon, NVIDIA 하드웨어에서 벤치마크를 수행한 결과, 동일한 설정값을 사용했을 때 원본 llama-server 처리량의 1% 이내 성능을 유지했다. 특히 토큰 생성 속도(디코딩)와 첫 토큰 생성 시간(TTFT)에 측정 가능한 영향이 없었으며, 모든 결과는 개발자가 설정한 2% 성능 저하 임계값보다 낮았다.

타 도구와의 성능 비교에서 LlamaStash는 최적화된 기본값을 바탕으로 우위를 점했다. 별도의 설정 없이 실행했을 때 Apple Silicon 환경에서 특정 모델은 원본 대비 7.3% 향상된 디코딩 속도를 보였다. 반면 Ollama는 AMD APU 하드웨어에서 원본 서버보다 처리량이 38~72% 낮았으며, 문서 재판독 등의 중복 처리로 인해 RAG 프리필 지연이 심각하게 나타났다. LM Studio는 AMD Strix Halo에서 ROCm 런타임 안정성 문제를 겪었으며, OpenAI 호환 심(Shim) 및 즉시 모델 로딩 과정으로 인해 첫 토큰 응답이 170~2300ms 지연되는 현상을 보였다.

이번 테스트는 명령행 입력을 동일하게 맞추고 모든 도구에서 표준 HTTP 엔드포인트 통신을 사용하여 공정성을 기했다. 평가는 chat_turn, agent_decode, rag_prefill, parallel_4 등 네 가지 작업 부하를 대상으로 지속적인 생성 처리량과 지연 시간을 측정했다. 실험에는 AMD Ryzen AI Max+ 395, Apple M1, NVIDIA RTX 3050 Ti 등 다양한 하드웨어가 사용되었으며, 모든 결과는 재부팅 등의 노이즈를 배제한 통제된 환경에서 반복 검증되었다. LlamaStash 프록시 자체의 지연 시간은 서브 밀리초(sub-millisecond) 단위로, 로컬 추론 작업에서 높은 효율성을 유지함이 확인되었다.

로컬 LLM 추론 백엔드인 llama-server의 래퍼(Wrapper) LlamaStash가 직접 서버를 구동하는 것과 비교해 무시할 만한 수준의 성능 오버헤드를 기록했다. AMD APU, Apple Silicon, NVIDIA 하드웨어에서 벤치마크를 수행한 결과, 동일한 설정값을 사용했을 때 원본 llama-server 처리량의 1% 이내 성능을 유지했다. 특히 토큰 생성 속도(디코딩)와 첫 토큰 생성 시간(TTFT)에 측정 가능한 영향이 없었으며, 모든 결과는 개발자가 설정한 2% 성능 저하 임계값보다 낮았다.

타 도구와의 성능 비교에서 LlamaStash는 최적화된 기본값을 바탕으로 우위를 점했다. 별도의 설정 없이 실행했을 때 Apple Silicon 환경에서 특정 모델은 원본 대비 7.3% 향상된 디코딩 속도를 보였다. 반면 Ollama는 AMD APU 하드웨어에서 원본 서버보다 처리량이 38~72% 낮았으며, 문서 재판독 등의 중복 처리로 인해 RAG 프리필 지연이 심각하게 나타났다. LM Studio는 AMD Strix Halo에서 ROCm 런타임 안정성 문제를 겪었으며, OpenAI 호환 심(Shim) 및 즉시 모델 로딩 과정으로 인해 첫 토큰 응답이 170~2300ms 지연되는 현상을 보였다.

이번 테스트는 명령행 입력을 동일하게 맞추고 모든 도구에서 표준 HTTP 엔드포인트 통신을 사용하여 공정성을 기했다. 평가는 chat_turn, agent_decode, rag_prefill, parallel_4 등 네 가지 작업 부하를 대상으로 지속적인 생성 처리량과 지연 시간을 측정했다. 실험에는 AMD Ryzen AI Max+ 395, Apple M1, NVIDIA RTX 3050 Ti 등 다양한 하드웨어가 사용되었으며, 모든 결과는 재부팅 등의 노이즈를 배제한 통제된 환경에서 반복 검증되었다. LlamaStash 프록시 자체의 지연 시간은 서브 밀리초(sub-millisecond) 단위로, 로컬 추론 작업에서 높은 효율성을 유지함이 확인되었다.