프라이버시 이점 및 경쟁력 있는 위치
많은 사용자가 Gemma 4를 프론티어 API의 개인용 로컬 대안으로 평가하며, 이전 Gemma 버전에 비해 향상된 tool-calling 능력을 언급하고 있습니다.
사용자들은 Gemma 4의 로컬 프라이버시 보호와 인상적인 vision 성능을 높게 평가하지만, 무거운 하드웨어 요구 사항과 가끔 발생하는 논리적 오류 또는 반복적인 hallucination에 대해 불만을 제기하고 있습니다.
많은 사용자가 Gemma 4를 프론티어 API의 개인용 로컬 대안으로 평가하며, 이전 Gemma 버전에 비해 향상된 tool-calling 능력을 언급하고 있습니다.
사용자들은 VRAM 제한과 느린 tokens-per-second 속도에 대해 활발히 토론하고 있으며, 특히 31B 모델과 다양한 quantizations 버전이 소비자용 GPU에서 어떻게 작동하는지에 대해 의문을 제기하고 있습니다.
코딩 작업이나 복잡한 논리 추론 테스트 중 발생하는 무한 출력 루프 및 hallucination 문제를 포함하여 모델의 일관성 문제가 집중적으로 다뤄지고 있습니다.
커뮤니티는 vision 성능에 대해 높은 열의를 보이고 있으며, 특히 OCR 작업에서의 정확도와 bounding boxes 처리 능력을 높이 평가하고 있습니다.
놀랍네요! 지능은 높이면서 크기는 줄였고, Apache 2 라이선스에 휴대폰에서도 작동합니다. 이것이 바로 우리가 원하던 2026년의 뉴스입니다. Google, 계속 힘내주세요.“Amazing! shrinking size while high intelligence, Apache 2, works on Phones. This is the 2026 news we need. Keep going Google.”
로컬에서 실행되는 Gemma 4 (gemma4:e2b 7.2GB)를 설치해서 제가 진행 중인 Clifford algebra 프로젝트를 위한 Constraint-Dynamical Hamiltonian을 유도해봤습니다. 결과물이 정말 대단했다는 건 믿으셔도 좋습니다... 파일을 읽기 위해 RAG를 사용하고 꽤 고급 수학을 할 수 있는 사고형 모델을 로컬에서 실행할 수 있다니... 그건 정말 대박이네요.. :)“I installed Gemma 4 (gemma4:e2b 7.2GB) running locally derived a Constraint-Dynamical Hamiltonian for a Clifford algebra project I am working on. And you have to trust me what it provided was amazing... So I have a thinking model running locally using RAG to read files and can do quite advanced math... that is the absolute bomb.. :)”
Gemma 4 환영합니다! 🎉 그리고 Gemma 4 개발 뒤에 계신 모든 분께 감사드립니다. 여러분의 엄청난 노고에 모두가 감사하고 있습니다.“Gemma 4 welcome! 🎉 And thanks to everyone behind Gemma 4's development. We all appreciate the incredible work you all do.”
놀랍지 않습니다. Gemma는 그저 미니 Gemini일 뿐이라 그런 쪽은 잘하죠. GLM 5.1이 빛을 발하는 곳은 코딩입니다.“Not surprised. Gemma is just a mini Gemini, it's good with that stuff. Where GLM 5.1 shines is coding.”
어떻게 실행하셨는지 모르겠지만, llama.cpp를 사용하여 로컬에서 실행 중이라면 b8660 llama.cpp 빌드를 사용하세요 (최신 버전에는 regression과 또 다른 tokenization 문제가 있습니다). 그리고 --temp 0.3 --top-p 0.9 --min-p 0.1 --top-k 20 설정을 사용하면 26B가 훨씬 더 잘할 거라고 확신합니다. 또한 Claude는 더 나은 포맷 등을 선호할 수 있으므로 불리언 테스트는 좋지 않습니다. judge를 위해 아래 프롬프트를 시도해 보세요: 나는 여러 작업에서 많은 AI를 벤치마킹하고 있다. 당신은 judge이다. LLM별이 아니라 질문별로 검토해라. 각 질문을 살펴보고, 모든 AI에게 10점 만점으로 점수를 매기며 공정하게…“I don't know how you ran it, if you're running it locally using llama.cpp, use the b8660 llama.cpp build (more recent versions have a regression, another tokenization issue) and use --temp 0.3 --top-p 0.9 --min-p 0.1 --top-k 20 I am sure the 26B will do much better. Also, Claude might favor better formatting etc., a boolean test is not good. Try the below prompt for the judge: I am benchmarking many AIs in many tasks. You are a judge. Go through them question by question, not LLM by LLM. Go through each question and, for every question, give all AIs a score out of 10, and be sure to be fair with them. Later, rank them all by their total score. MAKE SURE to evaluate them correctly, not based on vibe alone (check for misinformation, hallucinations, if they are useful or not, and not on formatting). PROMPT= AI 1: ... AI 2: ....”
judge로서의 LLM은 사양하겠습니다. 또한 테스트를 위해 Gemma 4를 어떻게 실행하느냐에 따라 달라집니다. llama.cpp b8665의 Gemma 4용 새로운 커스텀 파서가 제 문제를 해결해 주었습니다. 이전에는 아래 이미지를 받았을 때 테스트에 실패했지만, 이제는 해결합니다.“LLM as judge = no thanks. It also depends how you're running Gemma 4 for the test. The new custom parser for gemma 4 in llama.cpp b8665 has fixed it for me. Before, it failed the test of just being given the image below. Now it solves it.”
상황이 흘러가는 방향이 정말 기대됩니다. 다음 세대는 대부분의 일상적인 용도에서 frontier급 품질을 보여줄 것이며 Intel B70 같은 단일 고성능 GPU에도 들어갈 것입니다. turbo quant 같은 기술이 몇 번 더 발전하면 SOTA 수준의 휴대폰에서도 가능해지겠죠. 아마 두 세대 정도 남았을 겁니다. 만약 AI takeoff가 전적으로 edge 디바이스에서 실행되는 에이전트들에 의해 일어나고 주요 연구소들의 수조 달러 자본이 쓸모없어지면 경제가 어떨지 진심으로 걱정되긴 하지만, AI가 소수에 의해 통제되지 않는 좋은 방향으로 기울고 있어 매우 기쁩니다.“Super excited about the direction things are going. Next generation will be frontier quality for most daily uses and fit on a single solid GPU like the Intel B70. A couple more turbo quant type advances and we're there on SOTA phones, prob two generations. Genuinely concerned about the economy if the AI takeoff is entirely agents running on edge devices and the major labs' trillions in capital goes stale, but very glad we're leaning towards the good path where AI won't be controlled by the few.”
Gemma 4는 정말 오랜만에 AI가 이뤄낸 진정한 도약입니다. 크기는 더 작아졌지만 연산 능력은 덜 소모합니다. 제 PC에서 실행 중인데 20gb를 차지하면서도 400gb 모델과 맞먹습니다… 말도 안 되네요. 게다가 Apache 2.0이라서 이걸로 어떤 제품이든 만들어 팔 수 있습니다.“Gemma 4 is the first actual leap AI did in a "long" time. It makes it smaller but also use less computing power. I am running it on my PC and while it takes up 20gb its equivalent to a 400gb model… insane and on Apache 2.0 so you can make and sell any product you make with it.”
Gemma 2 때부터 단순한 yes man (girl)이 아니라 상호작용을 잘해서 유용했습니다. 지나친 동조성은 결함이며 Qwen의 그런 점이 싫습니다. (제 말이 전적으로 맞습니다)“Even since Gemma 2 it's been useful for being good at interacting instead of being a 'yes man' (girl). Agreeableness is a flaw and I don't like it in Qwen. (I'm absolutely right)”
qwen3 coder next가 실제 게임 로직에서 4b에게 밀리는 것은 이번 주에 본 벤치마크 결과 중 가장 사기를 떨어뜨리는 결과네요. playwright mcp가 큰 역할을 한 것이 이 변동성의 많은 부분을 설명해 줄 것 같습니다.“qwen3 coder next losing to the 4b at actual game logic is the most demoralizing benchmark result i've seen this week, playwright mcp doing the heavy lifting probably explains a lot of the variance here.”
그래프는 각 게시물의 추출 샘플(n≤30) 기반
themanmaran
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
r/LocalLLaMA
NetworkChuck
Google for Developers
DIY Smart Code
Teacher's Tech
零度解说
Zero to MVP
ByteMonk
Prasadtechintelugu
零度解说
Zero to MVP
Bart Slodyczka
Ishan Sharma