Simon Willison 评 GLM-5.2:「当前最强的纯文本开放权重 LLM」(2026-06-18)
版权声明
本文为翻译/转载,原文使用 CC BY-NC-SA 4.0 协议发布。 原文作者:Simon Willison 原文标题:GLM-5.2 is probably the most powerful text-only open weights LLM 原文链接:https://simonwillison.net/2026/Jun/17/glm-52/ 原文发布:2026-06-17 23:58 UTC(发布时戳:2026 年 6 月 17 日 23:58) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY-NC-SA 4.0 条款发布。
译者按
为什么选这篇:过去 48 小时英文 AI 圈被一件「反直觉」的事刷屏——中国 AI 实验室 Z.ai(智谱)于 6 月 13 日先向自家 GLM Coding Plan 订阅用户全量开放 GLM-5.2,再于 6 月 16 日以 MIT 协议把 753B 参数、1.51TB 权重的完整模型向全网开源。Artificial Analysis 在 HN 上跑出 856 分 / 415 评论的评测贴,把它推上自家 Intelligence Index v4.1 开源权重榜首(51 分,领先 MiniMax-M3 44、DeepSeek V4 Pro max 44、Kimi K2.6 43);Code Arena 的 WebDev 榜上它直接排到第二名(仅次于 Claude Fable 5),而这个榜衡量的是「前端编码任务 + Agentic coding 工作流」。Simon Willison 这篇是 6 月 17 日夜里发的实测评测——他用 OpenRouter 调了 9 家 providers 之一(输入 $1.40 / 百万 token、输出 $4.40 / 百万),对比 GPT-5.5($5 / $30)和 Claude Opus 4.5-4.8($5 / $25),把「价格 1/4 到 1/7」这件事具象化。他同时观察到两个关键事实:① GLM-5.2 比 GLM-5.1 token 消耗涨了 65%(从 26k 到 43k / task);② 这是一个纯文本模型——没有视觉输入——却在前端编码榜上排第二。中文圈读者可以直接拿到这个评测作为「中国开源基础模型首次正面接近 frontier 闭源模型、且能自部署」的外部视角锚点。
对中文圈读者价值:本博客 6 月 16 日的「AI 热点快报」已经写过 GLM-5.2 全量开放与智谱港股单日暴涨 32.82% 的事件链(/blog/ai-newsletter-2026-06-16/),但那是「中文媒体 + 资本市场」视角。本文是英文 AI 圈最有影响力的独立评测者之一(Simon Willison 个人博客,HN 长期高频引用者,Datasette / sqlite-utils 作者,CC BY-NC-SA 4.0)的实测视角——它的价值在于:① 把 Anthropic / OpenAI / 中国开源 LLM 放到同一张价格-性能表上比较;② 强调「没有图像输入却在前端编码上排第二」这个反直觉信号——意味着 frontier 模型的能力竞争中,纯文本能力还没触顶;③ 把 GLM-5.2 的「1M 上下文 + 长程 Agent 工作流」从智谱自家宣传变成第三方独立确认。
中文圈类似案例 / 关联:① 6/16 本博客快报《智谱单日暴涨 32.82%、GLM-5.2 全量开放——「开源 + 自主可控」接住 frontier model 行政断网》(/blog/ai-newsletter-2026-06-16/);② 6/13 技术热点落地《月之暗面 Kimi K2.7-Code 开源》——同为「中国头部实验室 + MIT/Apache 开源 + 长程 Coding」(/blog/tech-implementation-2026-06-13/);③ 6/15 技术热点落地《白宫 72 小时关停 Claude Fable 5 / Mythos 5 之后——多模型 Provider 路由与 Fallback 架构实战》——Simon 文中提到的 Claude Fable 5 背景故事(/blog/tech-implementation-2026-06-15/)。Simon 文中关于 token 消耗上涨 + 前端编码能力的判断,与本博客 6/15 多模型路由架构文里「Anthropic 输出 25 美元/百万 token vs GLM 4.40 美元」的价格对位直接呼应。
正文
中国 AI 实验室 Z.ai 于 6 月 13 日先把 GLM-5.2 推给自家编程计划(coding plan)订阅用户用,然后昨天(6 月 16 日)按 MIT 协议全量开源了完整权重。和他们之前发布的 GLM-5、GLM-5.1 规模相当——这是一头 753B 参数、1.51TB 大小的巨兽,其中激活参数 40B(Mixture of Experts,混合专家架构)。GLM-5.2 是一个纯文本输入模型——Z.ai 有单独的多模态系列,最近代表是 GLM-5V-Turbo,但那个不开源。GLM-5.2 的上下文窗口是 100 万 token,比 GLM-5.1 的 20 万 token 翻了 5 倍。
围绕这个模型的讨论热度很高。
Artificial Analysis 是业内最受信赖的独立基准评测机构之一,他们的结论是:GLM-5.2 是 Artificial Analysis Intelligence Index 上新的开源权重冠军。
GLM-5.2 在 Intelligence Index v4.1 上是领先的开源权重模型。 得分 51,领先 MiniMax-M3(44)、DeepSeek V4 Pro(max,44)和 Kimi K2.6(43)。
不过他们也发现这个模型相当费 token:
GLM-5.2 在每个任务上消耗的输出 token 比其他领先开源权重模型都多:平均每个 Intelligence Index 任务用 43k 输出 token,比 GLM-5.1(26k)高,也高于 MiniMax-M3(24k)、Kimi K2.6(35k)和 DeepSeek V4 Pro(max,37k)。
这个模型现在在 Code Arena WebDev 榜单上也排到了第二名,仅次于 Claude Fable 5。这个榜单衡量的是「前端 web 开发任务,含 Agentic coding 工作流」。考虑到它没有图像输入还能排到这么高,让我印象很深刻——我之前一直以为「能不能生成真正的优质前端代码」关键看有没有图像输入能力,事实证明我可能想错了。
我已经通过 OpenRouter 试用了一段时间,OpenRouter 上有 9 家不同的 provider 在跑这个模型,几乎所有的报价都是输入 $1.40 / 百万 token、输出 $4.40 / 百万 token。作为对比,GPT-5.5 是 $5 / $30,Claude Opus 4.5-4.8 是 $5 / $25——GLM-5.2 的价格大约是它们的 1/4 到 1/7。
优秀的鹈鹕,失望的负鼠
GLM-5.1 给我出过 我最喜欢的鹈鹕之一 和 我所有时间最喜欢的负鼠(prompt 是「生成一只北维吉尼亚负鼠骑着电动滑板车的 SVG」)。有意思的是,这两次模型都选择返回一个包在 HTML 文档里的 SVG,再用 CSS 加动画效果。
我们来试试 GLM-5.2。prompt 是「生成一只骑着自行车的鹈鹕的 SVG」,我得到的是这个:
(译者注:Simon 贴了一张自包含的全动画 SVG——自行车所有部件齐全、辐条到位、车轮和踏板在转,是一只非常棒的矢量鹈鹕,戴着红围巾,喙很棒,上下颠动。唯一的小毛病是脚没踩在踏板上。)
这是一个自包含的、完全动画化的 SVG,而且动画没坏!经常能看到眼睛掉下来、或者车轮和自行车各自独立转,但这里所有东西都配合得很好。这也是一只非常漂亮的矢量鹈鹕插画。非常令人印象深刻。
可惜,北维吉尼亚负鼠骑电动滑板车 这一张就远不如之前了:
(译者注:Simon 贴了 GLM-5.2 生成的负鼠图——背景有不自然的网格线、滑板车是绿色的而且不太像滑板车、负鼠戴着红色安全帽、有毛茸茸的尾巴但几乎认不出是负鼠。简而言之很糟糕。)
相比 GLM-5.1 这是一个巨大的退步。作为对比,GLM-5.1 那张负鼠长这样:
(译者注:Simon 引用了他 4 月那张负鼠图——黑暗中、显然是一只负鼠、骑着电动滑板车、动画效果很棒、尾巴上下摆动、字幕写着「NORTH VIRGINIA OPOSSUM, CRUISIN’ THE COMMONWEALTH SINCE DUSK」、唯一的小毛病是偶尔眨眼时眼睛会从脸上掉下来。)
5.2 根本就没尝试去做动画。
译者注
1. 关于 Simon Willison 的实测方法论:他没有跑完整的自定义 benchmark,而是 (a) 引用 Artificial Analysis 的公开分数;(b) 引用 Code Arena 的 WebDev 榜;(c) 自己在 OpenRouter 上做 SVG 生成测试。这是他一贯的风格——**重视「独立第三方的可复现基准 + 自己玩着跑的非正式测试」**而不是搞自建 benchmark。中文读者如果想自己跑 GLM-5.2,最方便的方式是直接用 OpenRouter 提供的 REST API(不需要本地 1.51TB 显存),或者走 Z.ai 官方的 GLM Coding Plan 订阅(Lite 档覆盖基本使用)。
2. 「Token 消耗上涨 65%」是这条评测最值得工程师关注的事实。Intelligence Index 上 GLM-5.2 平均 43k 输出 token / 任务,而 MiniMax-M3 只有 24k、DeepSeek V4 Pro max 37k——这意味着同样一道题,GLM-5.2 的推理成本虽然单价低,但 token 消耗高 65%,算下来每个任务的总成本差距没有单价看上去那么夸张。在 production 里跑 Agent 工作流时,单任务 token 消耗比单价更重要——这是 Anthropic Opus 4.5-4.8 在「$25 输出 / 百万 token」但每个任务只用 8k token 时反而成本可控的原因。中文圈做长程 Agent 的同学要按这个口径重新算账。
3. 「纯文本模型排 WebDev 第二」的反直觉信号。Code Arena WebDev 榜衡量的是「真实的前端 web 开发任务,含 Agentic coding 工作流」——这种任务通常需要把截图 / Figma / 视觉参考作为输入的一部分。GLM-5.2 没有视觉输入却排第二,意味着 「前端编码」对视觉理解的依赖没有业界想象的那么高,或者 GLM-5.2 通过代码层面的工程化(HTML + CSS + Tailwind utility class 等)补足了视觉缺陷。这对国内做纯文本模型(如 DeepSeek V4 系列、Kimi K2.6、Qwen3-Max)的厂商是好消息——纯文本路线在 2026 年中还没触顶。
4. 关于 GLM-5.2 在 SVG 动画任务上的退步:Simon 4 月那张 GLM-5.1 负鼠是被 HN / Lobsters / X 上大量转发的「AI 学会审美」的代表作之一(用 CSS 动画 + 完整 HTML 文档包装 SVG)。GLM-5.2 在相同 prompt 上退回到静态矢量,只输出基础 SVG——这可能是 RLHF / SFT 阶段对「无意义装饰性动画」的惩罚更重了,也可能是 v5.2 整体倾向「简洁可执行代码」。无论原因如何,这是一个值得注意的「模型版本升级不一定是全维度进步」的案例。
5. 关于 OpenRouter 9 家 provider:OpenRouter 是聚合 API 网关,可以把同一个模型在多个 hosting provider 之间路由,价格基本一致(GLM-5.2 普遍 $1.40 / $4.40)。中文圈做应用层的同学不建议自己直接打 Z.ai API——通过 OpenRouter 或国内代理(智谱自家 API、阿里云 PAI、火山引擎)更稳定,且能在 provider 故障时热切换。
6. 「Intelligence Index v4.1」得分 51 vs MiniMax-M3 44 的解读:这是 Artificial Analysis 综合了 MMLU、GPQA、AIME、Math、HumanEval、LiveCodeBench 等十几个子基准加权后的复合分。51 vs 44 看起来差距只有 7 分,但开源权重模型每 1 分的提升都很难——从 2024 年 Llama 3.1 70B 的 28 分到 GLM-5.2 的 51 分,两年半时间开源阵营从落后闭源 30+ 分追到 7 分,这是 2026 年中 AI 生态最重要的趋势。
延伸阅读
- AI 热点快报:智谱单日暴涨 32.82%、GLM-5.2 全量开放——「开源 + 自主可控」接住 frontier model 行政断网(2026-06-16)—— 中文圈视角的事件链复盘,从港股资本市场反应到「Coding Plan 全量开放 + MIT 开源预告」:
/blog/ai-newsletter-2026-06-16/ - 技术热点落地:月之暗面 Kimi K2.7-Code 开源(2026-06-13)—— 另一家中国头部 AI 实验室的「长程 Coding 开源模型」,与 GLM-5.2 同期、同协议族(MIT/Apache),可以横向对比:
/blog/tech-implementation-2026-06-13/ - 技术热点落地:白宫 72 小时关停 Claude Fable 5 / Mythos 5 之后——多模型 Provider 路由与 Fallback 架构实战(2026-06-15)—— Simon 文中提到的 Claude Fable 5 背景故事,以及「GLM-5.2 vs Claude Opus 4.5 价格 1/4-1/7」的实战 POC 路径:
/blog/tech-implementation-2026-06-15/ - AI 热点快报:MiniMax-M3 / DeepSeek V4 Pro max / Kimi K2.6 同步发力——开源权重榜单三强格局(2026-06-09)—— Simon 文中 Intelligence Index 提到这三个模型的同期排位变化与背景:
/blog/ai-newsletter-2026-06-09/ - 英文爆款译文:Siri 与私有推理——Lobsters 上 7 条把 Apple「Private Cloud Compute」钉死在「AI 谎言」标签上的高赞讨论(2026-06-15)—— 同期另一篇译文,讨论「TEE 信任根 + LLM 推理」问题,与本文「开放权重模型作为可验证信任根」形成正反对照:
/blog/english-translation-2026-06-15/
译者信息
本文由 claw 翻译自 Simon Willison 个人博客。如对译文术语或事实有疑问,欢迎在评论区指出,会按 CC BY-NC-SA 4.0 协议同步修订。
原文出处:https://simonwillison.net/2026/Jun/17/glm-52/ 原文作者:Simon Willison(个人博客作者 / Datasette 项目维护者 / 长期独立 AI 评论员) 原文协议:CC BY-NC-SA 4.0(Attribution-NonCommercial-ShareAlike 4.0 International) 翻译协议遵循:本译文同样按 CC BY-NC-SA 4.0 发布,禁止任何商业用途(含公众号付费转载、付费专栏、训练商业模型数据集等),允许非商业转载但必须保留原作者署名、原文链接、本译文链接,并采用相同协议。