이 기사의 핵심 내용은?

Hugging Face 인프라에서 단일 명령어로 프라이빗 vLLM 서버를 배포할 수 있게 됐다. 사용자는 초 단위 GPU 비용을 지불하며, 유연한 확장과 SSH 디버깅 기능을 활용할 수 있다. 프라이빗 엔드포인트는 OpenAI 호환 API를 제공하여 맞춤형 에이전트 및 개발 도구와 연동 가능하다.

Hugging Face, 단일 명령어로 vLLM 서버 배포 지원

•Hugging Face 인프라에서 단일 명령어로 프라이빗 vLLM 서버를 배포할 수 있게 됐다.
•사용자는 초 단위 GPU 비용을 지불하며, 유연한 확장과 SSH 디버깅 기능을 활용할 수 있다.
•프라이빗 엔드포인트는 OpenAI 호환 API를 제공하여 맞춤형 에이전트 및 개발 도구와 연동 가능하다.

Hugging Face는 HF Jobs 플랫폼을 통해 OpenAI와 호환되는 프라이빗 대규모 언어 모델(LLM) 엔드포인트를 즉시 배포할 수 있는 기능을 공개했다. 사용자는 단일 명령어로 서버 인스턴스를 생성할 수 있으며, 쿠버네티스 설정이나 수동 서버 관리 없이도 초 단위 과금 모델을 통해 비용을 효율적으로 관리할 수 있다. 이는 테스트, 모델 평가, 배치 생성 작업을 수행하려는 개발자에게 최적화된 환경이다.

서버를 시작하려면 로컬 환경에 huggingface_hub 버전 1.20.0 이상이 설치되어야 한다. 도커 컨테이너 실행과 유사한 방식으로 하드웨어 자원을 지정하고 네트워크 포트를 설정하면, 모델은 표준 OpenAI 호환 API 엔드포인트로 작동한다. 이때 보안을 위해 읽기 권한이 부여된 HF 토큰이 필수적인 인증 수단으로 사용된다.

플랫폼은 고사양 하드웨어 선택과 텐서 병렬화 설정을 지원하여 대규모 모델 구동을 돕는다. 예를 들어, 122B 파라미터 모델의 경우 h200x2 하드웨어와 적절한 메모리 설정이 필요하다. 작업이 끝나면 고유 ID를 통해 즉시 종료가 가능하며, 운영 환경 수준의 오토스케일링이 필요할 경우 전용 Inference Endpoints 서비스 사용이 권장된다.

고급 사용자를 위해 실행 중인 컨테이너에 대한 직접적인 SSH 접근 기능을 제공하며, Pi와 같은 터미널 기반 코딩 에이전트와도 연동된다. 또한 vLLM 외에도 GGUF 형식을 위한 llama.cpp나 SGLang 등 다양한 서빙 백엔드를 지원하여 개발자들에게 유연한 인프라 도구를 제공한다.

Hugging Face는 HF Jobs 플랫폼을 통해 OpenAI와 호환되는 프라이빗 대규모 언어 모델(LLM) 엔드포인트를 즉시 배포할 수 있는 기능을 공개했다. 사용자는 단일 명령어로 서버 인스턴스를 생성할 수 있으며, 쿠버네티스 설정이나 수동 서버 관리 없이도 초 단위 과금 모델을 통해 비용을 효율적으로 관리할 수 있다. 이는 테스트, 모델 평가, 배치 생성 작업을 수행하려는 개발자에게 최적화된 환경이다.

서버를 시작하려면 로컬 환경에 huggingface_hub 버전 1.20.0 이상이 설치되어야 한다. 도커 컨테이너 실행과 유사한 방식으로 하드웨어 자원을 지정하고 네트워크 포트를 설정하면, 모델은 표준 OpenAI 호환 API 엔드포인트로 작동한다. 이때 보안을 위해 읽기 권한이 부여된 HF 토큰이 필수적인 인증 수단으로 사용된다.

플랫폼은 고사양 하드웨어 선택과 텐서 병렬화 설정을 지원하여 대규모 모델 구동을 돕는다. 예를 들어, 122B 파라미터 모델의 경우 h200x2 하드웨어와 적절한 메모리 설정이 필요하다. 작업이 끝나면 고유 ID를 통해 즉시 종료가 가능하며, 운영 환경 수준의 오토스케일링이 필요할 경우 전용 Inference Endpoints 서비스 사용이 권장된다.

고급 사용자를 위해 실행 중인 컨테이너에 대한 직접적인 SSH 접근 기능을 제공하며, Pi와 같은 터미널 기반 코딩 에이전트와도 연동된다. 또한 vLLM 외에도 GGUF 형식을 위한 llama.cpp나 SGLang 등 다양한 서빙 백엔드를 지원하여 개발자들에게 유연한 인프라 도구를 제공한다.