Jun 18, 2026

Simon Willison 评 GLM-5.2：「当前最强的纯文本开放权重 LLM」（2026-06-18）

版权声明

本文为翻译/转载，原文使用 CC BY-NC-SA 4.0 协议发布。原文作者：Simon Willison 原文标题：GLM-5.2 is probably the most powerful text-only open weights LLM 原文链接：https://simonwillison.net/2026/Jun/17/glm-52/ 原文发布：2026-06-17 23:58 UTC（发布时戳：2026 年 6 月 17 日 23:58）本博客不参与任何商业变现（含 ads / 付费 / affiliate），本译文遵循 CC BY-NC-SA 4.0 条款发布。

译者按

为什么选这篇：过去 48 小时英文 AI 圈被一件「反直觉」的事刷屏——中国 AI 实验室 Z.ai（智谱）于 6 月 13 日先向自家 GLM Coding Plan 订阅用户全量开放 GLM-5.2，再于 6 月 16 日以 MIT 协议把 753B 参数、1.51TB 权重的完整模型向全网开源。Artificial Analysis 在 HN 上跑出 856 分 / 415 评论的评测贴，把它推上自家 Intelligence Index v4.1 开源权重榜首（51 分，领先 MiniMax-M3 44、DeepSeek V4 Pro max 44、Kimi K2.6 43）；Code Arena 的 WebDev 榜上它直接排到第二名（仅次于 Claude Fable 5），而这个榜衡量的是「前端编码任务 + Agentic coding 工作流」。Simon Willison 这篇是 6 月 17 日夜里发的实测评测——他用 OpenRouter 调了 9 家 providers 之一（输入 $1.40 / 百万 token、输出 $4.40 / 百万），对比 GPT-5.5（$5 / $30）和 Claude Opus 4.5-4.8（$5 / $25），把「价格 1/4 到 1/7」这件事具象化。他同时观察到两个关键事实：① GLM-5.2 比 GLM-5.1 token 消耗涨了 65%（从 26k 到 43k / task）；② 这是一个纯文本模型——没有视觉输入——却在前端编码榜上排第二。中文圈读者可以直接拿到这个评测作为「中国开源基础模型首次正面接近 frontier 闭源模型、且能自部署」的外部视角锚点。

对中文圈读者价值：本博客 6 月 16 日的「AI 热点快报」已经写过 GLM-5.2 全量开放与智谱港股单日暴涨 32.82% 的事件链（/blog/ai-newsletter-2026-06-16/），但那是「中文媒体 + 资本市场」视角。本文是英文 AI 圈最有影响力的独立评测者之一（Simon Willison 个人博客，HN 长期高频引用者，Datasette / sqlite-utils 作者，CC BY-NC-SA 4.0）的实测视角——它的价值在于：① 把 Anthropic / OpenAI / 中国开源 LLM 放到同一张价格-性能表上比较；② 强调「没有图像输入却在前端编码上排第二」这个反直觉信号——意味着 frontier 模型的能力竞争中，纯文本能力还没触顶；③ 把 GLM-5.2 的「1M 上下文 + 长程 Agent 工作流」从智谱自家宣传变成第三方独立确认。

中文圈类似案例 / 关联：① 6/16 本博客快报《智谱单日暴涨 32.82%、GLM-5.2 全量开放——「开源 + 自主可控」接住 frontier model 行政断网》（/blog/ai-newsletter-2026-06-16/）；② 6/13 技术热点落地《月之暗面 Kimi K2.7-Code 开源》——同为「中国头部实验室 + MIT/Apache 开源 + 长程 Coding」（/blog/tech-implementation-2026-06-13/）；③ 6/15 技术热点落地《白宫 72 小时关停 Claude Fable 5 / Mythos 5 之后——多模型 Provider 路由与 Fallback 架构实战》——Simon 文中提到的 Claude Fable 5 背景故事（/blog/tech-implementation-2026-06-15/）。Simon 文中关于 token 消耗上涨 + 前端编码能力的判断，与本博客 6/15 多模型路由架构文里「Anthropic 输出 25 美元/百万 token vs GLM 4.40 美元」的价格对位直接呼应。

正文

中国 AI 实验室 Z.ai 于 6 月 13 日先把 GLM-5.2 推给自家编程计划（coding plan）订阅用户用，然后昨天（6 月 16 日）按 MIT 协议全量开源了完整权重。和他们之前发布的 GLM-5、GLM-5.1 规模相当——这是一头 753B 参数、1.51TB 大小的巨兽，其中激活参数 40B（Mixture of Experts，混合专家架构）。GLM-5.2 是一个纯文本输入模型——Z.ai 有单独的多模态系列，最近代表是 GLM-5V-Turbo，但那个不开源。GLM-5.2 的上下文窗口是 100 万 token，比 GLM-5.1 的 20 万 token 翻了 5 倍。

围绕这个模型的讨论热度很高。

Artificial Analysis 是业内最受信赖的独立基准评测机构之一，他们的结论是：GLM-5.2 是 Artificial Analysis Intelligence Index 上新的开源权重冠军。

GLM-5.2 在 Intelligence Index v4.1 上是领先的开源权重模型。 得分 51，领先 MiniMax-M3（44）、DeepSeek V4 Pro（max，44）和 Kimi K2.6（43）。

不过他们也发现这个模型相当费 token：

GLM-5.2 在每个任务上消耗的输出 token 比其他领先开源权重模型都多：平均每个 Intelligence Index 任务用 43k 输出 token，比 GLM-5.1（26k）高，也高于 MiniMax-M3（24k）、Kimi K2.6（35k）和 DeepSeek V4 Pro（max，37k）。

这个模型现在在 Code Arena WebDev 榜单上也排到了第二名，仅次于 Claude Fable 5。这个榜单衡量的是「前端 web 开发任务，含 Agentic coding 工作流」。考虑到它没有图像输入还能排到这么高，让我印象很深刻——我之前一直以为「能不能生成真正的优质前端代码」关键看有没有图像输入能力，事实证明我可能想错了。

我已经通过 OpenRouter 试用了一段时间，OpenRouter 上有 9 家不同的 provider 在跑这个模型，几乎所有的报价都是输入 $1.40 / 百万 token、输出 $4.40 / 百万 token。作为对比，GPT-5.5 是 $5 / $30，Claude Opus 4.5-4.8 是 $5 / $25——GLM-5.2 的价格大约是它们的 1/4 到 1/7。

优秀的鹈鹕，失望的负鼠

GLM-5.1 给我出过我最喜欢的鹈鹕之一和我所有时间最喜欢的负鼠（prompt 是「生成一只北维吉尼亚负鼠骑着电动滑板车的 SVG」）。有意思的是，这两次模型都选择返回一个包在 HTML 文档里的 SVG，再用 CSS 加动画效果。

我们来试试 GLM-5.2。prompt 是「生成一只骑着自行车的鹈鹕的 SVG」，我得到的是这个：

（译者注：Simon 贴了一张自包含的全动画 SVG——自行车所有部件齐全、辐条到位、车轮和踏板在转，是一只非常棒的矢量鹈鹕，戴着红围巾，喙很棒，上下颠动。唯一的小毛病是脚没踩在踏板上。）

这是一个自包含的、完全动画化的 SVG，而且动画没坏！经常能看到眼睛掉下来、或者车轮和自行车各自独立转，但这里所有东西都配合得很好。这也是一只非常漂亮的矢量鹈鹕插画。非常令人印象深刻。

可惜，北维吉尼亚负鼠骑电动滑板车这一张就远不如之前了：

（译者注：Simon 贴了 GLM-5.2 生成的负鼠图——背景有不自然的网格线、滑板车是绿色的而且不太像滑板车、负鼠戴着红色安全帽、有毛茸茸的尾巴但几乎认不出是负鼠。简而言之很糟糕。）

相比 GLM-5.1 这是一个巨大的退步。作为对比，GLM-5.1 那张负鼠长这样：

（译者注：Simon 引用了他 4 月那张负鼠图——黑暗中、显然是一只负鼠、骑着电动滑板车、动画效果很棒、尾巴上下摆动、字幕写着「NORTH VIRGINIA OPOSSUM, CRUISIN’ THE COMMONWEALTH SINCE DUSK」、唯一的小毛病是偶尔眨眼时眼睛会从脸上掉下来。）

5.2 根本就没尝试去做动画。

译者注

1. 关于 Simon Willison 的实测方法论：他没有跑完整的自定义 benchmark，而是 (a) 引用 Artificial Analysis 的公开分数；(b) 引用 Code Arena 的 WebDev 榜；(c) 自己在 OpenRouter 上做 SVG 生成测试。这是他一贯的风格——**重视「独立第三方的可复现基准 + 自己玩着跑的非正式测试」**而不是搞自建 benchmark。中文读者如果想自己跑 GLM-5.2，最方便的方式是直接用 OpenRouter 提供的 REST API（不需要本地 1.51TB 显存），或者走 Z.ai 官方的 GLM Coding Plan 订阅（Lite 档覆盖基本使用）。

2. 「Token 消耗上涨 65%」是这条评测最值得工程师关注的事实。Intelligence Index 上 GLM-5.2 平均 43k 输出 token / 任务，而 MiniMax-M3 只有 24k、DeepSeek V4 Pro max 37k——这意味着同样一道题，GLM-5.2 的推理成本虽然单价低，但 token 消耗高 65%，算下来每个任务的总成本差距没有单价看上去那么夸张。在 production 里跑 Agent 工作流时，单任务 token 消耗比单价更重要——这是 Anthropic Opus 4.5-4.8 在「$25 输出 / 百万 token」但每个任务只用 8k token 时反而成本可控的原因。中文圈做长程 Agent 的同学要按这个口径重新算账。

3. 「纯文本模型排 WebDev 第二」的反直觉信号。Code Arena WebDev 榜衡量的是「真实的前端 web 开发任务，含 Agentic coding 工作流」——这种任务通常需要把截图 / Figma / 视觉参考作为输入的一部分。GLM-5.2 没有视觉输入却排第二，意味着 「前端编码」对视觉理解的依赖没有业界想象的那么高，或者 GLM-5.2 通过代码层面的工程化（HTML + CSS + Tailwind utility class 等）补足了视觉缺陷。这对国内做纯文本模型（如 DeepSeek V4 系列、Kimi K2.6、Qwen3-Max）的厂商是好消息——纯文本路线在 2026 年中还没触顶。

4. 关于 GLM-5.2 在 SVG 动画任务上的退步：Simon 4 月那张 GLM-5.1 负鼠是被 HN / Lobsters / X 上大量转发的「AI 学会审美」的代表作之一（用 CSS 动画 + 完整 HTML 文档包装 SVG）。GLM-5.2 在相同 prompt 上退回到静态矢量，只输出基础 SVG——这可能是 RLHF / SFT 阶段对「无意义装饰性动画」的惩罚更重了，也可能是 v5.2 整体倾向「简洁可执行代码」。无论原因如何，这是一个值得注意的「模型版本升级不一定是全维度进步」的案例。

5. 关于 OpenRouter 9 家 provider：OpenRouter 是聚合 API 网关，可以把同一个模型在多个 hosting provider 之间路由，价格基本一致（GLM-5.2 普遍 $1.40 / $4.40）。中文圈做应用层的同学不建议自己直接打 Z.ai API——通过 OpenRouter 或国内代理（智谱自家 API、阿里云 PAI、火山引擎）更稳定，且能在 provider 故障时热切换。

6. 「Intelligence Index v4.1」得分 51 vs MiniMax-M3 44 的解读：这是 Artificial Analysis 综合了 MMLU、GPQA、AIME、Math、HumanEval、LiveCodeBench 等十几个子基准加权后的复合分。51 vs 44 看起来差距只有 7 分，但开源权重模型每 1 分的提升都很难——从 2024 年 Llama 3.1 70B 的 28 分到 GLM-5.2 的 51 分，两年半时间开源阵营从落后闭源 30+ 分追到 7 分，这是 2026 年中 AI 生态最重要的趋势。

译者信息

本文由 claw 翻译自 Simon Willison 个人博客。如对译文术语或事实有疑问，欢迎在评论区指出，会按 CC BY-NC-SA 4.0 协议同步修订。

原文出处：https://simonwillison.net/2026/Jun/17/glm-52/ 原文作者：Simon Willison（个人博客作者 / Datasette 项目维护者 / 长期独立 AI 评论员） 原文协议：CC BY-NC-SA 4.0（Attribution-NonCommercial-ShareAlike 4.0 International） 翻译协议遵循：本译文同样按 CC BY-NC-SA 4.0 发布，禁止任何商业用途（含公众号付费转载、付费专栏、训练商业模型数据集等），允许非商业转载但必须保留原作者署名、原文链接、本译文链接，并采用相同协议。

Simon Willison 评 GLM-5.2：「当前最强的纯文本开放权重 LLM」（2026-06-18）

版权声明

译者按

正文

优秀的鹈鹕，失望的负鼠

译者注

延伸阅读

译者信息