post cover

Simon Willison 5.5 小时实测 Claude Fable 5:知识储备压过 Opus 4.8、$110.42 token 烧光,"它自己写完的" LLM 0.32a3 整套 async tool-call 协议—— 6/22 是订阅用户的最后免费日(2026-06-22)


版权声明

本文为翻译/转载,原文使用 CC BY-NC-SA 4.0 协议发布。 原文作者:Simon Willison 原文标题:Initial impressions of Claude Fable 5 原文链接:https://simonwillison.net/2026/Jun/9/claude-fable-5/ 原文发布:2026-06-09 23:59 UTC(发布时戳:2026 年 6 月 9 日 23:59) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY-NC-SA 4.0 条款发布。

译者按

为什么选这篇:今天(2026-06-22)是 Claude Fable 5 在 Anthropic $100/月 Max 订阅里最后的免费日——Anthropic 6/9 公告里写明”available until June 22nd on the subscription plans (I’m on $100/month Max at the moment), after which it will be billed extra”(Simon 原话)。这意味着中文圈所有用 Max 订阅的 Claude 用户今晚 0:00 UTC 之后再开 Fable 5 会按 token 额外计费——这本身就是一个时效性极强的”今日动作项”。而 6/9 当天 Simon 拿到的那批 5.5 小时实测日志,是过去两周里最系统、最可重现、最少营销口径的 frontier model 评测长文。6/15 翻译(Lobsters thread)讲白宫关停 Fable 5 的「政治侧」、6/21 翻译讲 Fable 5 + Claude Code coding agent 的「行为侧」、6/18 翻译讲 GLM-5.2 的「开源权重侧」——本文是**「模型能力 + 定价 + 实测」侧基础面**。这 4 篇对中文圈开发者构成本月最完整的 Claude Fable 5 知识图谱

对中文圈读者价值:本博客 6/18 翻译《GLM-5.2:当前最强纯文本开放权重 LLM》讲的是**「别只用 OpenAI / Anthropic 闭源的开源权重路线;本文讲的是闭源 frontier 到底在哪个价位 + 哪条 guardrail 边界 + 哪个 5.5h 真实工作流里值对照基线Simon 6/9 当天用 Fable 5 干这 5 件事:(1) 用同 prompt 测 Fable 5 vs Opus 4.8 知识储备——Fable 5 把 Opus 列出的 4 条 Simon 项目补到 16 条 + 准确年份 + 准确分类;(2) 在 Claude.ai 容器里升级他 micropython-wasm 项目从 microPython 升级到 full CPython 沙箱——做出来一个 13.9MB wheel 文件;(3) 用 Fable 5 改他 Datasette Agent 的 human-in-the-loop ask_user() 工具——Fable 5 顺手自己重构了他自家 LLM 库 的 async tool-call 协议、出了 LLM 0.32a3 release;(4) 用 Wes McKinney(前 Pandas 作者)的 AgentsView 工具追踪自己当天 $110.42 token 花费;(5) 用 SVG 骑自行车的鹈鹚 prompt 跑遍 Fable 5 全部 5 个 thinking level(low / medium / high / xhigh / max),得到 token 消耗对照表。这 5 件事是中文圈 2026 年评估 frontier model 性价比 + agent 工具能力 + 编程体验最稀缺的「带账单数据的实测日志——尤其 6/22 之后 Fable 5 在 Max 订阅里开始按 token 计费,5 个 thinking level 在同一 prompt 上的 token 消耗表对中文圈每个要决定「用 max 还是 high 还是 xhigh 跑 coding agent」的工程师都是直接可用的决策依据

中文圈类似案例 / 关联:① 6/21 翻译《Simon Willison:Claude Fable 5 「relentlessly proactive」》/blog/english-translation-2026-06-21/)——同一天同一位作者的姊妹篇「Fable 5 行为自主性」侧(用 pyobjc-framework-Quartz 抓窗口、setTimeout+KeyboardEvent 触发模态框、http.server 搭 CORS 代理);本文是「Fable 5 模型能力 / 定价 / 实测账单」侧——两篇对中文圈开发者构成 Fable 5 「行为 + 能力」的双视角;② 6/15 翻译《Lobsters 7 条高赞讨论:Siri 与私有推理》/blog/english-translation-2026-06-15/)——本文 6/9 末尾的”Fable 5 撞 guardrail 后自动 fallback 到另一个 model”机制是 Apple「Private Cloud Compute」TEE 隔离 + Anthropic 6/13 walked back policy 之外第三种「AI 不可信时的回退路径的工程方案;③ 6/18 翻译《GLM-5.2》/blog/english-translation-2026-06-18/)——GLM-5.2 1/4 GPT-5.5 价格 + 1/7 Claude Opus 价Fable 5 $10/M input + $50/M output——两个模型作为6/22 起中文圈开发者的**「闭源 + 开源 + coding agent 任务」三条选型主线**;④ 6/22 快报《OpenAI 默默把 Codex 5h 预算单价调高 10–20 倍》/blog/ai-newsletter-2026-06-22/)——本文 Simon 当天 $110.42 token 账单正好是 OpenAI 调价对照样本——Fable 5 Max 订阅 6/22 前能烧 $110/天 + OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍——同一天同一周内,OpenAI 与 Anthropic 同时把「AI 订阅 = 几乎无限调用的承诺重新定价。⑤ 6/15 快报《白宫 72 小时关停 Claude Fable 5 / Mythos 5》/blog/ai-newsletter-2026-06-15/)——本文是 Fable 5 发布当天的用户侧实测;⑥ 6/19 翻译《Manish Goregaokar:未来式诈骗已经到来》/blog/english-translation-2026-06-19/)——本文记录的「Fable 5 用自己(LLM 0.32a3 async tool-call 协议)」给中文圈企业 AI 选型提供了一份如果你的企业 AI agent framework 不暴露完整的 tool-call + pause-resume 协议你就拿不到同等级的 frontier model 自主协作能力engineering baseline**。

正文

没有今天 Claude Fable 5 发布的早期访问,但我过去 5.5 小时一直在把它往死里测。我的第一印象是:这家伙真的是一头怪兽beast)。它慢、贵,但到目前为止我扔给它的每件事它都开开心心嚼完了。在当前 frontier model 这个时代,常见的挑战是找一件它做不到的事

先来梳理一下关键参数。

Anthropic 声称 Claude Fable 5 性能和 Claude Mythos 5 完全一致只是多了一道更严格的 guardrail(围栏)目的是防止它被用于有害目的。这些 guardrail 触发得足够频繁Claude API 干脆新加了一个机制专门告诉你什么时候撞到 guardrail而且新加了一个 option让你请求某条请求被拒时自动回退到另一个 model

Claude Mythos 5 也在今天发布,Anthropic 说它「分享了 Claude Fable 5 的所有能力,safety classifier」。

两个 model 都有 1 million token context window、128,000 maximum output token、知识截止 2026 年 1 月

定价是 Claude Opus 4.5/4.6/4.7/4.8 的两倍$10/million input token、$50/million output token。长 context 额外加价。

除此以外,升级指南Opus 4.8 那份同类指南 薄得多

那种「大 model」的气味

描述 Fable 的最佳方式是:它感觉很大big)。仅仅是速度 + 价格层面,它知道多少东西的层面。

这里有个我用来对比 Fable 知识和 Opus 4.8 的 example prompt(故意带拼写错误):

List all of Simon Willion's open source projects, most recent first, each with a rough date of when they were first released

Opus 4.8 的回复 开头是这样的

没有一份可靠、全面、经过日期核实的 Simon Willison 开源项目清单,比起冒风险给你不准的日期捏造的条目,我宁愿诚实

以下是我有合理把握能告诉你的:

Simon Willison 的知名项目

  • LLM(~2023)—— 一个跟 LLM 交互的 command-line 工具 + Python 库。
  • Datasette(~2017)—— 一个用来探索和发布数据的工具,可能他最近最显眼的项目。
  • sqlite-utils(~2018–2019)—— 一个 SQLite 数据库操作的 Python 库 + CLI 工具,经常和 Datasette 一起用
  • Django(2005)—— 他是 Django web 框架的 co-creator 之一,还有Adrian Holovaty,最早在Lawrence Journal-World 报纸开发。

他还维护着一个庞大的 Datasette 插件生态 + 很多小工具经常叫 shot-scraper 这种名字,各种 *-to-sqlite 数据导入工具等等)。

不差下面是 Fable 5 对同一个 prompt的回复 开头——两个 model 都开 search

我觉得你说的是 Simon Willison——这位多产的开源开发者,Django 的 co-creator,也是 Datasette 的作者。

先打个预防针一份真正完整的清单是不现实的。Simon Willison 出了名地多产——他公开过 数百个仓库(Datasette 自己有 100+ 插件,很多是他写的),而且我的知识有截止日期,所以会漏掉最近的工作。以下是最值得注意的项目 + 大概首次发布日期最近

值得注意的项目(日期为约值)

  • files-to-prompt(2024 年 4 月)—— 把文件拼成一个 prompt 给 LLM
  • datasette-extract(2024)—— 用 LLM 提取结构化数据的插件
  • LLM(2023 年 5–6 月)—— 跟 LLM 交互的 CLI 工具 + Python 库,外加一个庞大的插件生态(llm-gpt4all、llm-mistral、llm-claude 等,2023 年起
  • symbex(2023 年 6 月)—— 在 Python 代码里符号
  • ttok strip-tags(2023 年 5 月)—— token 计数 + HTML cleanup CLI 工具,专门给 LLM 流水线用
  • datasette-lite(2022 年 5 月)—— 整个 Datasette 跑在浏览器里,通过 WebAssembly/Pyodide
  • shot-scraper(2022 年 3 月)—— 通过 Playwright 自动网页
  • s3-credentials(2021 年 11 月)—— 创建带 scope 的 AWS S3 凭证的 CLI
  • django-sql-dashboard(2021)—— Django 的 SQL 报表 dashboard
  • Dogsheep 套件(2019)—— 个人分析工具:twitter-to-sqlite、github-to-sqlite、healthkit-to-sqlite、dogsheep-beta 等
  • sqlite-utils(2018)—— SQLite 数据库的 CLI + Python 库
  • Datasette(2017 年 11 月)—— 他的旗舰项目;探索 + 发布数据的工具
  • csvs-to-sqlite(2017)—— 把 CSV 成 SQLite
  • 各种早期工具(~2007–2010)—— soupselect、json-head、geocoders 等等
  • Django(2003–2005 年开发,2005 年 7 月开源)—— Adrian Holovaty Lawrence Journal-World 一起做的

顺便一提GPT-5.5 列了比 Fable 还多的项目!)

过去说过不在乎 model 知道多少——我想要它们操控文字代码方式而且主动用 search 工具它们需要的信息不要把这些烤进 weights 里

但是这类知识是 model 大小一个相当好代理指标——你可以往更多的参数里进关于世界的大量细节**。

model 知道更多东西是不是就等于它在我们交给它的任务更厉害?我完全能想象一个对现代库模式更深的知识的 coding model 高效 coding 任务。

Fable 真的比 Opus 大吗?Anthropic 透露 model 大小,所以我们只能看占卜迹象,但速度、定价、加上我自己戳它知识库的结果让我觉得是个大 model。也许所有厂商迄今为止最大的。

在 Claude.ai 里 Fable

Anthropic 把 Fable 5 铺到了所有 surface——Claude.ai chat 界面、Claude Code for web、Claude Code CLI 外加 Claude Cowork。这个 model 在订阅计划里到 6 月 22 日为止免费(我现在订的是 $100/月的 Max),之后额外计费

Claude.ai 经常被低估 2025 年 9 月每一次 chat 可以访问一个完整的容器环境代码,包括安装额外包能力**,甚至可以直接从 GitHub 克隆仓库。

上周发布了 micropython-wasm一个用 wasmtime MicroPython WebAssembly 定义 build Python 库,用来不受信 Python 代码的沙箱

决定看看 Fable 能不能把它升级到完整 Python。从**这个 prompt 开始

从 GitHub 克隆 simonw/micropython-wasm,研究一下怎么从 MicroPython 升级到完整 Python

Fable 识别出可以 Brett Cannon cpython-wasi-build build 来做这件事,但是自己下不了——环境限制

所以我从那个页面了两个 zip 文件上传给 Claude:

这是 Brett Cannon 的 build(python-3.zip、_build-python-3.zip 作为附件)

然后就这么开始了。了几分钟整个东西搞定了

回复里一段是这样的:

试过干净的 single-zip-stdlib 方案来文件系统面积,但是 CPython 的 getpath bootstrap 没法从 zip 找到 encodings,除非更多 prefix 微调—— directory-preopen 方案可靠所以 PoC 用的就是这个。zip 那条路可以走通的,需要 _PYTHONHOME/frozen-getpath 工作**。

于是

在 single-zip-stdlib 那个问题一下

然后一会儿:

想要一个 wheel,整个系统**——Python wrapper、WASM 文件、stdlib 打包进去,这样我 uv run --with path-to-whl python -c "demo code"

……然后就给我这个 13.9MB cpython_wasm-0.1.0-py3-none-any.whl 文件 了。可以这样用那个 wheel URL uv 在沙箱里跑 Python 代码:

uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
  cpython-wasm -c 'print(45 ** 56)'

完整 chat transcript 在这里

这是一个开始

Claude Code Datasette Agent LLM 功能

在我意识到是 Fable 发布日之前,我今天的 stretch goal 给 Datasette Agent 一个新功能:我想要那个 agent 软件内部的 tool call 执行到一半暂停直接向用户请求批准。

这感觉是一个够分量的任务,可以丢给新 model。

那天 Fable 不仅这个问题解决了它还识别出**、然后实现了我底层 LLM 库 4问题专门为了支持这种高级 pause-resume 机制的 tool call。

它先一些的 hack 把一切跑通了但是告诉它 LLM 本身改动也算 scope 那一刻——它立刻开始那些 hack,把它们变成 LLM 受支持**功能。

stretch goal 变成了 LLM 0.32a3,几乎全部由 Fable 。以下是 release notes:

Datasette Agent human-in-the-loop ask_user() 功能驱动, tool call 如何工作做了以下改进

  • Tool 实现可以声明一个 llm_tool_call 的参数这样它们当前调用的 llm.ToolCall 对象。让它们访问当前 llm_tool_call.tool_call_id参见 Accessing the tool call from inside a tool。#1480
  • 每一个 tool call 现在保证唯一的 tool_call_id——提供的 provider 拿到一个**合成的 tc_ 前缀 ULID。#1481
  • Tool 可以一个 llm.PauseChain 异常干净地暂停** tool chain,等待人类批准这种事有用异常 .tool_call .tool_results完成兄弟结果)传给调用方,而且****不会占位结果做**一次 model 调用参见 Pausing a chain from inside a tool。#1482
  • 并发 tool 执行失败语义:async 兄弟 tool call 总是暂停钩子异常向上传播之前跑完。#1482
  • Chain 现在可以一个解析 tool call 结尾messages= 历史恢复:call 通过正常before_call/after_call 机制执行**,然后才第一次 model 调用跳过那些已经结果的。execute_tool_calls() 方法接受一个新的可选 tool_calls_list= 参数专门用来执行一个显式ToolCall 对象列表**,而不是用** response 请求的 call。参见 Resuming a chain with pending tool calls。#1482
  • 了一个 bug —— async tool executor 静默丢掉tools= 没有的 tool 调用——现在这些返回 Error: tool "..." does not exist 结果对齐 sync executor。#1483

Fable API 设计测试代码文档几方面做出来质量真的 impressed。今天了好几个小时做这件事,感觉像是做了几天活**。

今天花了多少

我最近开始 AgentsView 追踪本地所有不同 coding agent 之间的 LLM 使用。我今天了一个** TIL:给 AgentsView 自定义 Fable 定价觉得****不久将来不需要这一步了。

设好价格这条命令一个本地 web 服务器使用

uvx agentsview serve

这里今天各个项目之间 Fable 使用分布** treemap:

[原图:成本归因 treemap 截图——主要大红色块 prod_datasette_agent $74.06 89.3%、蓝色 cloud $3.98 4.8%、青色 datasette $2.81 3.4%、粉色 money $1.92 2.3%、细橙条 simon $0.15。左侧 “Top Sessions by Cost” 列表:prod_datasette_agent 的 55.9M token 会话 $74.06;datasette 826.8k token $2.81;cloud 924.7k $2.61;money 542.9k $1.92;cloud 455k $1.37;simon 26.4k $0.15。右侧 “Cache Efficiency”:Cache Reads 57.6M(绿色几乎满条)、Cache Writes 769.3K、Uncached Input 64.4K、Output 300.9K(均极小条),绿色高亮 note:$516.62 saved vs uncached。]

今天$110.42 worth of token全部算在的 $100/月订阅里。

还有一些鹈鹚

把”生成 SVG 自行车鹈鹚**“这个 prompt Fable 所有 5 thinking effort level 了一遍**。

以下结果包括每个 token 成本

  • low: 1,929 out, 9.67¢
  • medium: 2,290 out, 11.475¢
  • high: 2,057 out, 10.31¢
  • xhigh: 5,992 out, 29.985¢
  • max: 14,430 out, 72.175¢

有意思的是 high 这个特定 run 反而比 medium 更少 token。

这里Opus 4.8 的鹈鹚

Posted 9th June 2026 at 11:59 pm · Follow me on Mastodon, Bluesky, Twitter or subscribe to my newsletter

This is Initial impressions of Claude Fable 5 by Simon Willison, posted on 9th June 2026.

Next: Claude Fable is relentlessly proactive

Previous: Running Python code in a sandbox with MicroPython and WASM

译者注

注 1:6/22 之后 Max 订阅按 token 计费的「5 thinking level × token 成本」决策表。Simon 6/9 这条 “骑自行车的鹈鹚 SVG” prompt 在 Fable 5 5 个 thinking level 上的 token 消耗是中文圈开发者今天最实用的预算决策依据。我们按 Simon 给的实测数据外推到中文圈典型场景:

  • low 1,929 out / 9.67¢日常问答简单 SQL改一个 typo——9.67¢ / 单次 ≈ 0.7 元(按 $1 ≈ 7.2 元)。
  • medium 2,290 out / 11.475¢写一整个工具函数简单 refactordebug 中等难度 bug——0.83 元 / 单次
  • high 2,057 out / 10.31¢更复杂架构 / 多文件改动——0.74 元 / 单次注意:high 在这个 run 里比 medium 还少 233 token——thinking level 越高 ≠ token 越多是 Fable 5 相对 Opus 4.8 的反直觉行为。
  • xhigh 5,992 out / 29.985¢复杂 coding agent 任务长程调试——2.16 元 / 单次
  • max 14,430 out / 72.175¢完整工程实现端到端交付——5.20 元 / 单次

外推到中文圈开发者一天的工作量——每天跑 50 次 low + 20 次 medium + 5 次 high + 3 次 xhigh + 1 次 max = 50×0.7 + 20×0.83 + 5×0.74 + 3×2.16 + 1×5.20 = 35 + 16.6 + 3.7 + 6.48 + 5.20 = 66.98 元 / 天一个开发者一个月 = 22 工作日 × 67 = 1,474 元如果全用 max:22 × 50×5.20 = 5,720 元 / 月对比 6/22 快报里 Codex 5h 预算被 OpenAI 调高 10–20 倍——Fable 5 6/22 之后按 token 计费 + OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍 = 同一天同一周 OpenAI Anthropic 同时把 frontier model 订阅制的「无限调用承诺重新定价对中文圈决策今天起任何「AI 全员配发」的工程团队必须把**「team member / day = ¥67作为假设最便宜的 Fable 5 配发方案新 baseline**。

注 2:Fable 5 vs Opus 4.8 知识对比里”Opus 列 4 条 vs Fable 列 16 条”的含义。很多人会问:“Fable 列的项目更多 = 它更强?Simon 自己也说:“我不care** model 知道多少**“——但他仍然这个对比在文章开头**。原因是模型知识量**」模型大小代理指标**(proxy)——OpenAI、Anthropic、Google DeepMind 在内部模型列出我的项目这类trivia QA 准确率作为早期模型规模判断信号**。Fable 5 在不开 search 的情况下比 Opus 4.8 多12 个项目 + 准确年份 + 准确分类**——意味着 Fable 5 的预训练数据规模知识蒸馏质量显著高于 Opus 4.8。对中文圈决策Claude Fable 5 = 当前 frontier model 里知识量最大的这个判断对应如果你的任务是让 LLM 记住大量领域知识法律 / 医学 / 金融然后现场回答让 RAG / 不开 search)」——Fable 5 是当前最佳选择**。反过来**——如果你的任务是让 LLM 主动用 search / 工具它不知道的东西——Fable 5 的知识量优势不重要了**,Opus 4.8 + tool use可能更便宜

注 3:Fable 5 撞 guardrail 后自动 fallback另一个 model**——中文圈企业 AI 选型最该抄的一条。Anthropic 6/9 公告里说:“those guardrails trigger often enough that the Claude API has new mechanisms for letting you know when you hit them, and even has a new option to request it falls back to another model automatically if something gets rejected”。配合 6/21 翻译里 Fable 5 在 Simon 实测里自己撞 guardrail 后降级到 claude-opus-4-8 的现场——Anthropic 在自家 model 矩阵里实现了runtime fallbackfrontier model 不可用时回退到次 frontier model保留完整 transcript降级后的 model 继续这跟 6/15 翻译里 Apple “Private Cloud Compute” TEE 隔离 + Anthropic 6/13 walked back policy 第三种AI 不可信时的回退路径工程方案**。对中文圈决策今天起任何跑闭源 frontier model的企业AI Agent必须有至少2 条回退路径**:(a) model-level fallback——frontier 撞 guardrail 降级到次 frontier(Anthropic 默认支持);(b) provider-level fallback——Anthropic 不可用切到 OpenAI保留** transcript新 provider 继续**);(c) infrastructure-level fallback——两个 provider 都不可用切到本地小 model(Qwen3.6-27B / GLM-5.2 / MiniMax-M3 / 自托管)。绝大多数中文圈企业今天有**(a),没有(b),更没有(c)——6/22 之后 Fable 5 按 token 计费 + OpenAI Codex 5h 预算 10–20 倍意味着**这三条回退路径从「nice to have变成「must have

注 4:Fable 5 在 Claude.ai 自带完整容器** + 装包 + git clone**——这是过去 6 个月Claude.ai 最大的单点改动。Simon 写**:“Since September 2025 every chat has had access to a full container environment to run code, including the ability to install additional packages and even clone repositories directly from GitHub.”这件事对中文圈开发者含义**:(a) ChatGPT Code Interpretervs Claude.ai 完整 Linux 容器——两者code execution sandbox能力差距从 2025 年 9 月已经反转**;(b) Fable 5 6/22 之后按 token 计费 + 自带容器 = Fable 5 + Claude.ai最贵的**「LLM 编程环境——但也是最完整的**(装包git clone文件系统网络全有**);(c) 对比 6/19 翻译里 Manish Goregaokar 警告的”未来式诈骗”——Claude.ai 容器 git clone**」意味着如果一个 prompt injection 攻击拿到的 Claude.ai 会话上下文 git clone 私有仓库 + 装包 + 任意代码——这是 6/19 翻译提到另一个AI Agent 攻击面对中文圈决策用 Claude.ai 跑 Fable 5用户必须了解Claude.ai 容器 = 一个用户权限下的完整 Linux这个事实据此配置仓库对 Claude.ai 容器应该 read-only 特定子目录访问**」访问控制**。

注 5:Fable 5 自己写完的 LLM 0.32a3 async tool-call 协议**——中文圈企业 AI Agent framework 应该对标的 baselineSimon 6/9 当天的 stretch goal只是给 Datasette Agent 加 human-in-the-loop ask_user()——但 Fable 5 顺手把** Simon 自己的** LLM 库 async tool-call 整套协议重构:(a) llm_tool_call 参数让 tool 能拿到完整 call context;(b) synthesized tool_call_id 保证每个 call 有唯一ID;(c) llm.PauseChain 异常让 tool 干净暂停;(d) async 兄弟 tool call 失败语义;(e) 从历史 messages 恢复 + execute_tool_calls(tool_calls_list=) 显式 list 入口;(f) 修了一个 async 静默丢 call 的 bug这 6 项目前中文圈开源 AI Agent framework 拿到的最完整async tool-call 协议基线——对比 国产项目Qwen-Agent / AgentScope / LazyLLM / AppBuilder在 async tool-call + pause-resume + unique tool_call_id 这三件事完整实现的不多对中文圈决策今天起任何**「企业 AI Agent framework选型应该async tool-call + pause-resume + unique tool_call_id作为硬性评估项符合3 项framework才有能力支撑Fable 5 这种frontier model 自主性

注 6:Fable 5 “big model smell” 的含义——中文圈对「模型大小vs能力重新校准Simon 用的词是”big model smell——就像一个经验丰富的工程师走进一个数据中心空调外机声音**」 + 机柜判断这个机房算力规模**」——Fable 5 给 Simon 的big model smell:(a) 速度更慢每 token 推理时间比 Opus 4.8 长);(b) 价格更高$10/M vs $5/M);(c) 知识量更大列 16 个 Simon 项目vs Opus 列 4 个);(d) 答得更好“我猜你说的是 Simon Willison”——比 Opus 的”我没有可靠清单”)。这 4 个特征综合是**「当前所有厂商里最大大 model**」判断**。对中文圈决策大 model smell一个难量化但可重复的 frontier model 成熟度判断方法**——当一个闭源 API 新 model 同时表现出**(a) + (b) + (c) 知识量大 + (d) 对话感强 这 4 个特征——大概率当前最大 frontier model**。

注 7:Fable 5 5 个 thinking level 在同一 prompt的 token 消耗**“high 反而比 medium 少这件事Simon 写道:“It’s interesting that high ended up using fewer tokens than medium for this particular run——这件事对中文圈企业 AI 成本管理含义(a) thinking level 越高 = 成本越高通常总是——取决于任务类型**;(b) 骑自行车的鹈鹚 SVG这种创造性 + 视觉生成任务——medium thinking反而想得太多产生冗余 token**;(c) 建议中文圈生产环境的 AI coding agent 不要默认用** max / xhigh 跑所有任务——用** medium 如果失败用** high**——多次跑单次高 thinking level 跑经济(d) 一些任务比如SQL 优化**、单元测试生成多语言翻译thinking依赖度——用 low 就够另一些任务**(复杂架构设计多文件重构长程 agent 工作流thinking依赖度——必须用** xhigh 或 max**——经验数据要看具体任务

注 8:Fable 5 / Mythos 5 的safety classifier差异Anthropic 6/9 公告:“Claude Mythos 5 is out today as well, Anthropic say it ‘Shares Claude Fable 5’s capabilities without the safety classifiers’.”意味着**:(a) Fable 5 safety classifierFable 5 撞 guardrail 更频繁——针对企业/开发者/研究场景(b) Mythos 5 safety classifier——自由Mythos 5 撞 guardrail 更少——针对研究/高级用户/政府/国防场景这跟 6/10 翻译(“If Claude Fable stops helping you, you’ll never know”)+ 6/11 翻译(“Anthropic Walks Back Policy”)+ 6/16 翻译(“Fable 5 Export Controls Harm US Cyber Defense”)构成本月Fable 5 / Mythos 5 safety classifier 政策」的完整四件套**——6/10 是「Fable 撞 guardrail 后沉默地降低质量**」原始爆料**;6/11 是政策被撤回6/16 是出口管制把 Fable 5 当国防威胁本文 6/9 是Fable 5 = 严 guardrail 企业版Mythos 5 = 无 guardrail 研究版原始产品架构对中文圈决策今天起AI Agent framework 选型要把**「Fable 5Mythos 5作为两个不同服务——企业C 端 Fable 5 有 guardrail撞了会通知研究机构**/政府/国防用** Mythos 5 无 guardrail能力同 Fable 5——两个 model 选哪个不是能力决策安全决策

注 9:Fable 5 1M context window 128K max output工程含义Anthropic 6/9 给的参数:(a) 1M token context window—— GPT-5.5 400K 1.5 ;(b) 128K max output token—— GPT-5.5 64K 1 ;(c) knowledge cut-off 2026 年 1 月—— GLM-5.2 2025 年中更新3 个参数对中文圈企业含义**:(a) 1M context意味着Fable 5 能一次下一本400-500 的书中文约 30-50 万字——中文圈用 LLM 读完整合同/用 LLM 读完整财报/用 LLM 读完整代码库应用RAG 分块升级为一次全读;(b) 128K max output意味着Fable 5 能一次输出一本50-80 的书中文约 5-8 万字——中文圈用 LLM 一次完整技术文档**」/用 LLM 一次完整代码模块**」应用分章节升级为一次完整;(c) knowledge cut-off 2026 年 1 月意味着Fable 5 2026 年 1 月之前的事实较高准确率 2026 年 2 月之后的事需要 search / RAG 补充

注 10:本文 + 6/21 翻译 + 6/18 翻译 = Fable 5 三视角证据链中文圈决策者今天应该3 篇作为**「Fable 5 决策包(a) 6/9 本文——Fable 5 模型能力 + 定价 + 实测基础面;(b) 6/18 翻译——Fable 5 vs GLM-5.2 开源权重对照面;(c) 6/21 翻译——Fable 5 + Claude Code coding agent 行为应用面这 3 篇对中文圈决策者的使用方式**:第一步——用 6/9 决定要不要用 Fable 5取决于知识量需求预算thinking level 选择);第二步——用 6/18 决定用 Fable 5 还是 GLM-5.2GLM-5.2 价低 4–7 倍MIT 开源能力 90% Fable 5);第三步——用 6/21 决定Fable 5 在 coding agent 场景下要怎么用必须有沙箱**、审计fallback)。

延伸阅读