이 기사의 핵심 내용은?

구글이 NVIDIA RTX GPU 및 Jetson 에지 모듈에 최적화된 Gemma 4 모델을 출시했다. 새로운 오픈 웨이트 모델은 네이티브 도구 사용 기능과 멀티모달 역량을 갖췄으며 35개 이상의 언어를 지원한다. Tensor Cores를 통한 하드웨어 가속으로 로컬 AI 에이전트 및 코딩 작업을 위한 고성능 추론이 가능해졌다.

NVIDIA와 구글, 로컬 AI 가속화 위한 Gemma 4 공개

•구글이 NVIDIA RTX GPU 및 Jetson 에지 모듈에 최적화된 Gemma 4 모델을 출시했다.
•새로운 오픈 웨이트 모델은 네이티브 도구 사용 기능과 멀티모달 역량을 갖췄으며 35개 이상의 언어를 지원한다.
•Tensor Cores를 통한 하드웨어 가속으로 로컬 AI 에이전트 및 코딩 작업을 위한 고성능 추론이 가능해졌다.

인공지능 기술의 중심축이 거대한 클라우드 서버에서 사용자의 책상 위 하드웨어로 이동하고 있다. 이에 발맞춰 구글과 NVIDIA는 파트너십을 강화하고, 차세대 오픈 모델인 Gemma 4를 RTX PC와 에지 모듈 같은 로컬 장치에서 직접 실행할 수 있도록 지원하기로 했다. 이번 업데이트를 통해 초효율적인 2B 버전부터 복잡한 추론과 코딩 작업이 가능한 강력한 31B 모델에 이르기까지 다양한 크기의 모델이 제공된다.

Gemma 4의 가장 큰 특징은 텍스트, 이미지, 오디오를 하나의 프롬프트 내에서 동시에 처리할 수 있는 ‘옴니(Omni)’ 성능을 갖췄다는 점이다. 이러한 모델을 로컬 환경에서 구동하면 데이터가 외부 서버로 전송될 필요가 없어 개인정보가 즉각적으로 보호되며 지연 시간도 대폭 단축된다. 실제로 이는 사람의 개입 없이 파일 정리나 코드 디버깅 등 복잡한 워크플로우를 자동화하는 AI 에이전트를 구축하는 데 필수적인 요소로 꼽힌다.

NVIDIA는 이번 출시를 지원하기 위해 자사의 CUDA 소프트웨어 스택과 Tensor Cores를 활용하여 제품 출시 당일부터 압도적인 성능을 보장했다. 또한 개발자들은 Ollama나 Unsloth와 같은 대중적인 도구를 사용해 특정 작업에 맞춰 모델을 미세 조정할 수 있다. 이러한 높은 접근성 덕분에 대학생이나 취미 개발자들도 클라우드 컴퓨팅 구독 비용 부담 없이 최첨단 추론 시스템을 자유롭게 실험할 수 있게 되었다.

인공지능 기술의 중심축이 거대한 클라우드 서버에서 사용자의 책상 위 하드웨어로 이동하고 있다. 이에 발맞춰 구글과 NVIDIA는 파트너십을 강화하고, 차세대 오픈 모델인 Gemma 4를 RTX PC와 에지 모듈 같은 로컬 장치에서 직접 실행할 수 있도록 지원하기로 했다. 이번 업데이트를 통해 초효율적인 2B 버전부터 복잡한 추론과 코딩 작업이 가능한 강력한 31B 모델에 이르기까지 다양한 크기의 모델이 제공된다.

Gemma 4의 가장 큰 특징은 텍스트, 이미지, 오디오를 하나의 프롬프트 내에서 동시에 처리할 수 있는 ‘옴니(Omni)’ 성능을 갖췄다는 점이다. 이러한 모델을 로컬 환경에서 구동하면 데이터가 외부 서버로 전송될 필요가 없어 개인정보가 즉각적으로 보호되며 지연 시간도 대폭 단축된다. 실제로 이는 사람의 개입 없이 파일 정리나 코드 디버깅 등 복잡한 워크플로우를 자동화하는 AI 에이전트를 구축하는 데 필수적인 요소로 꼽힌다.

NVIDIA는 이번 출시를 지원하기 위해 자사의 CUDA 소프트웨어 스택과 Tensor Cores를 활용하여 제품 출시 당일부터 압도적인 성능을 보장했다. 또한 개발자들은 Ollama나 Unsloth와 같은 대중적인 도구를 사용해 특정 작업에 맞춰 모델을 미세 조정할 수 있다. 이러한 높은 접근성 덕분에 대학생이나 취미 개발자들도 클라우드 컴퓨팅 구독 비용 부담 없이 최첨단 추론 시스템을 자유롭게 실험할 수 있게 되었다.