가성비 가치
사용자들이 GLM-5.2를 Anthropic이나 OpenAI 모델 비용의 극히 일부로 평가하면서, 대규모 작업 위임을 위한 선호되는 선택지가 되었습니다.
GLM 5.2는 Z.ai에서 개발한 대규모 추론 모델입니다. 100만 토큰의 컨텍스트 윈도우를 통해 텍스트 입출력을 지원하며, 장기적인 에이전트 워크플로우나 프로젝트 단위의 소프트웨어 엔지니어링 작업에 최적화되어 있습니다.
사용자들이 GLM-5.2를 Anthropic이나 OpenAI 모델 비용의 극히 일부로 평가하면서, 대규모 작업 위임을 위한 선호되는 선택지가 되었습니다.
1M 컨텍스트 윈도우와 에이전트 기능은 복잡한 작업을 처리하는 데 찬사를 받고 있지만, 일부는 추론 토큰에서의 'thinkslop'을 지적합니다.
엔터프라이즈급이 아닌 하드웨어에서 거대 파라미터 모델을 실행하기 위해 필요한 방대한 VRAM 및 RAM 요구 사항으로 인해 상당한 기술적 불만이 존재합니다.
GitHub 보고서에 따르면 도구 호출 문법 및 NPU 호환성에서 치명적인 오류가 확인되었으며, 이는 다양한 런타임 환경에서의 개선이 필요함을 시사합니다.
GLM의 차이점은 토큰당 비용이 1/10 수준이고 사용 제한도 훨씬 높다는 것입니다.“The difference is glm is 1/10th of the cost per token and has way higher usage limit”
256GB Mac Studio나 충분한 VRAM + RAM을 갖춘 시스템처럼 하드웨어만 충분하다면 GLM-5.2도 로컬에서 실행할 수 있다는 점을 잊으셨네요. Unsloth는 원래 모델 정확도의 82%를 유지하면서도 로컬 배포를 훨씬 쉽게 만들어주는 2-bit quantized 버전을 제공합니다.“You forgot to mention that GLM-5.2 can also run locally if you have enough hardware like 256GB Mac Studio or a system with sufficient VRAM + RAM. Unsloth also provides a 2-bit quantized version that reportedly retains 82% of the original model accuracy, making local deployment much more accessible.”
이거 진짜 미쳤네요. 2026년에 GLM 5.2랑 Claude 중에 뭘 써야 할까요? 진짜 더 이상 못 고르겠어요 ㅋㅋ 😭😭“This was ABSOLUTELY INSANE. Are you choosing GLM 5.2 or Claude to use in 2026? I genuinely can't decide anymore lol 😭😭”
Z.ai 설립자의 발표: “GLM-5.2는 완전히 오픈되었습니다. 프런티어 지능은 오늘날 모든 사람의 것입니다. 비기술적인 이유로 특정 프런티어 모델의 접근이 갑자기 제한되는 현 시점은 매우 유감스럽습니다. 우리는 한 가지를 더욱 확신합니다. 과학은 세계적이어야 합니다. AGI(인공 일반 지능)로 가는 길은 결코 높은 벽에 갇혀서는 안 됩니다. 우리는 AGI가 소수에게 독점되는 것이 아니라, 인류 전체가 지능의 한계를 탐구하고 복잡한 문제를 해결하기 위한 초석이 되어야 한다고 믿어왔습니다...“Announcement from the founder of Z.ai: “ GLM-5.2 is Fully Open, Frontier Intelligence Belongs to Everyone Today, the sudden restriction of certain frontier models is deeply regrettable. At a time when access to frontier models is abruptly cut off for non-technical reasons, we are even more convinced of one thing: science should be global. The path to AGI (Artificial General Intelligence) must never be enclosed by high walls. We have always believed that AGI should be the cornerstone for all of humanity to collaboratively explore the boundaries of intelligence and solve complex challenges, rather than a privilege monopolized by a few rules and subject to revocation at any moment. In the face of external blockades and restrictions, our attitude is one of radical openness. Frontier intelligence must remain open-source, accessible, and buildable, serving every dedicated developer. GLM-5.2 is Zhipu's most capable open-source model to date. It not only supports a truly usable 1M context window but also maintains a continuous lead in the independent completion of long-horizon tasks, providing solid foundational support for building complex agent applications. It also continues to be our main engine for creating the strongest domestic coding model. Tonight at 5:21—at this special moment—GLM-5.2 will officially be available to all GLM Coding Plan users (including Lite / Pro / Max). The API will also go live next week. A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people. ModelKey: GLM-5.2” https://x.com/jietang/status/2065784751345287314”
누구도 distillation만으로는 새로운 AI 모델을 만들 수 없습니다. 누구도요. 사실 제가 아는 모든 모델이 훈련/검증 과정에서 기존 모델을 distillation해서 사용합니다! 그러니 누군가 distillation을 했다고 비난하는 것은 최소한 기만적이거나, 아니면 엄청나게 위선적인 짓입니다.“NOBODY can make a new AI model by distillation alone, NOBODY. in fact, every model i know of distilled from existing models during the training/verification process! so accusing anyone of doing distillation is at very least disingenuous, if not extremely hypocritical.”
저는 Q4_K_XL을 돌리고 있습니다. llama.cpp -cmoe를 사용해 초당 약 6토큰(6tk/sec)을 얻으려면 512GB RAM과 3090 GPU 2개면 충분합니다. 제 DDR4 2400mhz는 좀 구리지만, 3200mhz로 바꾸면 속도가 9tk/sec까지 올라갈 겁니다. CPU는 적당한 32코어 epyc인데, 더 좋은 64코어를 쓰면 11tk/sec 정도 나올 거예요. 하드웨어 가격이 미치기 전에 가성비로 맞췄는데 매일 후회 중입니다. 그럼에도 집에서 이 모델을 돌릴 수 있다는 건 환상적입니다. 계획을 세우거나, 계획과 컨텍스트가 준비된 상태에서 원샷 프롬프팅을 하기에 아주 좋습니다. 이 하드웨어 전체를 구축할 때 2400달러 들었습니다. 자원을 들일 용의가 있다면...“I run Q4_K_XL. All it takes to run to get about 6tk/sec is 512gb of ram and 2 3090 GPUs with llama.cpp -cmoe. I also have crappy DDR4, 2400mhz, 3200mhz will bring that speed up to about 9tk/sec. I also have ok 32core epyc CPU, a better 64core would bring it up to about 11tk/sec. I did a budget build before the crazy hardware cost and I regret it everyday. Nevertheless, it's fantastic being able to run this model at home. It's great for planning, one shot prompting once you have a plan or all the context you need. This entire hardware cost $2400 when it was built. If you're willing to be resourceful, you can find ways to run these models at home. I often get the silly question of why, and suggestions about how much I can save using cloud API, but the Fable drama has opened up eyes on why it's good for us to be independent. Thanks team unsloth, Q4_K_XL is solid, if you are going to grab a quant, make sure to get the K_XL variant if it can fit.”
이번 주말 Fable과 GPT 5.6 소동 이후 이 오픈 모델들을 다시 살펴봤는데... GLM-5.2는 일상적인 프로그래밍에 정말 훌륭한 워크호스(workhorse) 모델입니다. 저는 스스로를 LLM 헤비 유저이자 노련한 개발자라고 생각합니다. 보통 GPT와 세션을 진행하면 100달러 넘게 깨지는데... 이번 주말에 암호화 기능이 있는 매트릭스 봇과 몇 가지 도구를 갖춘 Rust 에이전트를 프로그래밍했습니다. OpenClaw는 제가 원하는 느낌이 아니었거든요. 이틀 뒤에 20달러만 쓰고 제 홈랩에 접근할 수 있는 Rust 기반 멀티모달 에이전트를 완성했습니다. 전혀 어색함이 없었고...“I have taken another look on these open models after the fiasco of Fable and GPT 5.6 this weekend and... GLM-5.2 truly is a good workhorse model for daily programming. I consider myself a heavy user of LLMs and a seasoned developer. A typical session for me with GPT is usually over a hundred dollars... This weekend I programmed a matrix bot with encryption and a Rust agent with some tools. Because I need one and OpenClaw just felt... not what I wanted. Two days later and 20 dollars poorer I have what I need: a multimodal agent written in rust that has access to my homelab. Nothing felt off with GLM. It did what I wanted, was fast, had a decent not very annoying personality and was much cheaper than Opus or GPT. I used it unquantized through Fireworks, but there are multiple other providers too.”
중국인들은 오픈 소스로 책임감 있는 인류의 모습을 보여주는 반면, 미국의 과두 정치 세력은 AI가 결국 우리 모두를 죽이게 되더라도 그저 돈을 더 벌려고만 하네요...“The Chinese are being responsible humans with open source while the oligarchy Americans are just trying to make more money even if AI ends up killing us all…”
>걱정 마세요, 오픈 소스 복음주의자들이 3년 안에 당신의 휴대폰에서 이게 돌아갈 거라고 말해줄 테니까요. 비꼬시는 건지 모르겠지만, 저는 16GB M1 맥북 프로에서 2023년의 GPT-4를 가볍게 이기는 Gemma나 Qwen 양자화 버전을 돌리고 있습니다. 3년 뒤에 표준 소비자용 하드웨어(예: 32GB/64GB M7 Pro)에서 Opus 4.5나 GLM-5.2만큼 강력한 모델을 돌릴 수 있게 되어도 놀랍지 않을 것 같네요. 또한 그로부터 3년 뒤에는 하드웨어 가격 하락과 모델 효율성 개선 덕분에 로컬 모델과 상용 모델의 격차가 훨씬 더 줄어들어도 이상하지 않을 겁니다.“>Don't worry though, open source evangelists will tell you that these will be running on your phone in the next 3 years. Not sure if you're being sarcastic, but I can run a quantised version of Gemma or Qwen on my 16GB M1 Macbook Pro that beats GPT-4 from 2023 hands-down. I wouldn't be surprised if, in another 3 years, you'd be able to run something as powerful as Opus 4.5 or GLM-5.2 on standard consumer hardware - say a 32GB/64GB M7 Pro. I also wouldn't be surprised if, 3 years after that, cheaper hardware and improved model efficiency means that there's a much smaller gap between what you can run on a consumer CPU (which, with memory prices coming down, could look like a 256GB M9 or M10 Pro) and $100k GPU cluster.”
GLM 5.2는 정말 장관이네요 😮“Glm5.2 es espectacular 😮”
그래프는 각 게시물의 추출 샘플(n≤30) 기반
vllm-project/vllm-ascend
lightseekorg/tokenspeed
AnswerDotAI/fastllm
zelosleone/glm-chat-provider
vllm-project/vllm-ascend
danielnogueira8/LinkedInViralPostsSwipeFile
marimo-team/marimo
renning22/glm-5.2-4090
senara-solutions/mika
sgl-project/sglang
vllm-project/vllm
0bserver07/chimera
BigPizzaV3/CodexPlusPlus
sgl-project/sglang
senara-solutions/mika
anomalyco/opencode
Kizunad/Bong
NimbleCoAI/hermes-agent-mt
team-telnyx/telnyx-code-examples
earendil-works/pi
anthony-chaudhary/fak
keithtgrehan/earnings-call-signal-engine
albertovasquez/done
albertovasquez/done
sergiobe31/claude-glm-toolkit
jms703
himata4113
aloknnikhil
TechTechTech
ritzaco
vantareed
Lowkeyss
eadx
Lowkeyss
thfyf1
meshllm
AdvancedDataIntelligence
meshllm
AdvancedDataIntelligence
AdvancedDataIntelligence
AdvancedDataIntelligence
AdvancedDataIntelligence
AdvancedDataIntelligence
AdvancedDataIntelligence
Lowkeyss
FenomAI
phaseonx11
RedHatAI
mgoin
MaliAir
mfjian
huihui-ai
madeby561
madeby561
zandenAI
Thireus
AI Search
Vaibhav Sisinty
tef
CNBC
tef
Nate Herk | AI Automation
AI News & Strategy Daily | Nate B Jones
AI Search
Vision IA
tef
midudev