Jun 22, 2026

Simon Willison 5.5 小时实测 Claude Fable 5：知识储备压过 Opus 4.8、$110.42 token 烧光，"它自己写完的" LLM 0.32a3 整套 async tool-call 协议—— 6/22 是订阅用户的最后免费日（2026-06-22）

版权声明

本文为翻译/转载，原文使用 CC BY-NC-SA 4.0 协议发布。原文作者：Simon Willison 原文标题：Initial impressions of Claude Fable 5 原文链接：https://simonwillison.net/2026/Jun/9/claude-fable-5/ 原文发布：2026-06-09 23:59 UTC（发布时戳：2026 年 6 月 9 日 23:59）本博客不参与任何商业变现（含 ads / 付费 / affiliate），本译文遵循 CC BY-NC-SA 4.0 条款发布。

译者按

为什么选这篇：今天（2026-06-22）是 Claude Fable 5 在 Anthropic $100/月 Max 订阅里最后的免费日——Anthropic 6/9 公告里写明”available until June 22nd on the subscription plans (I’m on $100/month Max at the moment), after which it will be billed extra”（Simon 原话）。这意味着中文圈所有用 Max 订阅的 Claude 用户今晚 0:00 UTC 之后再开 Fable 5 会按 token 额外计费——这本身就是一个时效性极强的”今日动作项”。而 6/9 当天 Simon 拿到的那批 5.5 小时实测日志，是过去两周里最系统、最可重现、最少营销口径的 frontier model 评测长文。6/15 翻译（Lobsters thread）讲白宫关停 Fable 5 的「政治侧」、6/21 翻译讲 Fable 5 + Claude Code coding agent 的「行为侧」、6/18 翻译讲 GLM-5.2 的「开源权重侧」——本文是**「模型能力 + 定价 + 实测」侧的基础面**。这 4 篇对中文圈开发者构成本月最完整的 Claude Fable 5 知识图谱。

对中文圈读者价值：本博客 6/18 翻译《GLM-5.2：当前最强纯文本开放权重 LLM》讲的是**「别只用 OpenAI / Anthropic 闭源」的开源权重路线；本文讲的是「闭源 frontier 到底在哪个价位 + 哪条 guardrail 边界 + 哪个 5.5h 真实工作流里值」的对照基线。Simon 6/9 当天是用 Fable 5 干这 5 件事：(1) 用同 prompt 测 Fable 5 vs Opus 4.8 知识储备——Fable 5 把 Opus 列出的 4 条 Simon 项目补到 16 条 + 准确年份 + 准确分类；(2) 在 Claude.ai 容器里升级他 micropython-wasm 项目从 microPython 升级到 full CPython 沙箱——做出来一个 13.9MB wheel 文件；(3) 用 Fable 5 改他 Datasette Agent 的 human-in-the-loop ask_user() 工具——Fable 5 顺手自己重构了他自家 LLM 库的 async tool-call 协议、出了 LLM 0.32a3 release；(4) 用 Wes McKinney（前 Pandas 作者）的 AgentsView 工具追踪自己当天 $110.42 token 花费；(5) 用 SVG 骑自行车的鹈鹚 prompt 跑遍 Fable 5 全部 5 个 thinking level（low / medium / high / xhigh / max），得到 token 消耗对照表。这 5 件事是中文圈 2026 年评估 frontier model 性价比 + agent 工具能力 + 编程体验最稀缺的「带账单数据的实测日志」——尤其 6/22 之后 Fable 5 在 Max 订阅里开始按 token 计费，5 个 thinking level 在同一 prompt 上的 token 消耗表对中文圈每个要决定「用 max 还是 high 还是 xhigh 跑 coding agent」的工程师都是直接可用的决策依据。

中文圈类似案例 / 关联：① 6/21 翻译《Simon Willison：Claude Fable 5 「relentlessly proactive」》（/blog/english-translation-2026-06-21/）——同一天同一位作者的姊妹篇，「Fable 5 行为自主性」侧（用 pyobjc-framework-Quartz 抓窗口、setTimeout+KeyboardEvent 触发模态框、http.server 搭 CORS 代理）；本文是「Fable 5 模型能力 / 定价 / 实测账单」侧——两篇对中文圈开发者构成 Fable 5 「行为 + 能力」的双视角；② 6/15 翻译《Lobsters 7 条高赞讨论：Siri 与私有推理》（/blog/english-translation-2026-06-15/）——本文 6/9 末尾的”Fable 5 撞 guardrail 后自动 fallback 到另一个 model”机制是 Apple「Private Cloud Compute」TEE 隔离 + Anthropic 6/13 walked back policy 之外第三种「AI 不可信时的回退路径」的工程方案；③ 6/18 翻译《GLM-5.2》（/blog/english-translation-2026-06-18/）——GLM-5.2 1/4 GPT-5.5 价格 + 1/7 Claude Opus 价，Fable 5 $10/M input + $50/M output——两个模型作为6/22 起中文圈开发者的**「闭源 + 开源 + coding agent 任务」三条选型主线**；④ 6/22 快报《OpenAI 默默把 Codex 5h 预算单价调高 10–20 倍》（/blog/ai-newsletter-2026-06-22/）——本文 Simon 当天 $110.42 token 账单正好是 OpenAI 调价的对照样本——「Fable 5 Max 订阅 6/22 前能烧 $110/天」 + 「OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍」——同一天同一周内，OpenAI 与 Anthropic 同时把「AI 订阅 = 几乎无限调用」的承诺重新定价。⑤ 6/15 快报《白宫 72 小时关停 Claude Fable 5 / Mythos 5》（/blog/ai-newsletter-2026-06-15/）——本文是 Fable 5 发布当天的用户侧实测；⑥ 6/19 翻译《Manish Goregaokar：未来式诈骗已经到来》（/blog/english-translation-2026-06-19/）——本文记录的「Fable 5 用自己（LLM 0.32a3 async tool-call 协议）」给中文圈企业 AI 选型提供了一份「如果你的企业 AI agent framework 不暴露完整的 tool-call + pause-resume 协议，你就拿不到同等级的 frontier model 自主协作能力」的engineering baseline**。

正文

我没有今天 Claude Fable 5 发布的早期访问，但我过去 5.5 小时一直在把它往死里测。我的第一印象是：这家伙真的是一头怪兽（beast）。它慢、贵，但到目前为止我扔给它的每件事它都开开心心地嚼完了。在当前 frontier model 这个时代，常见的挑战是找一件它做不到的事。

先来梳理一下关键参数。

Anthropic 声称 Claude Fable 5 性能和 Claude Mythos 5 完全一致，只是多了一道更严格的 guardrail（围栏），目的是防止它被用于有害目的。这些 guardrail 触发得足够频繁，Claude API 干脆新加了一个机制专门告诉你什么时候撞到 guardrail，而且还新加了一个 option，让你请求在某条请求被拒时自动回退到另一个 model。

Claude Mythos 5 也在今天发布，Anthropic 说它「分享了 Claude Fable 5 的所有能力，但不带safety classifier」。

两个 model 都有 1 million token context window、128,000 maximum output token、知识截止 2026 年 1 月。

定价是 Claude Opus 4.5/4.6/4.7/4.8 的两倍：$10/million input token、$50/million output token。长 context 不额外加价。

除此以外，升级指南比 Opus 4.8 那份同类指南 薄得多。

那种「大 model」的气味

描述 Fable 的最佳方式是：它感觉很大（big）。不仅仅是速度 + 价格层面，也是它知道多少东西的层面。

这里有个我用来对比 Fable 知识和 Opus 4.8 的 example prompt（故意带拼写错误）：

List all of Simon Willion's open source projects, most recent first, each with a rough date of when they were first released

Opus 4.8 的回复开头是这样的：

我没有一份可靠、全面、经过日期核实的 Simon Willison 开源项目清单，比起冒风险给你不准的日期或捏造的条目，我宁愿诚实。

以下是我有合理把握能告诉你的：

Simon Willison 的知名项目：

LLM（~2023）—— 一个跟 LLM 交互的 command-line 工具 + Python 库。

Datasette（~2017）—— 一个用来探索和发布数据的工具，可能他最近最显眼的项目。

sqlite-utils（~2018–2019）—— 一个 SQLite 数据库操作的 Python 库 + CLI 工具，经常和 Datasette 一起用。

Django（2005）—— 他是 Django web 框架的 co-creator 之一，还有Adrian Holovaty，最早在Lawrence Journal-World 报纸开发。

他还维护着一个庞大的 Datasette 插件生态 + 很多小工具（经常叫 shot-scraper 这种名字，各种 *-to-sqlite 数据导入工具等等）。

不差。下面是 Fable 5 对同一个 prompt的回复开头——两个 model 都没开 search：

我觉得你说的是 Simon Willison——这位多产的开源开发者，Django 的 co-creator，也是 Datasette 的作者。

先打个预防针：一份真正完整的清单是不现实的。Simon Willison 出了名地多产——他公开过 数百个仓库（Datasette 自己就有 100+ 插件，很多是他写的），而且我的知识有截止日期，所以我会漏掉他最近的工作。以下是他最值得注意的项目 + 大概的首次发布日期，最近的在最前：

值得注意的项目（日期为约值）

files-to-prompt（2024 年 4 月）—— 把文件拼成一个 prompt 给 LLM

datasette-extract（2024）—— 用 LLM 提取结构化数据的插件

LLM（2023 年 5–6 月）—— 跟 LLM 交互的 CLI 工具 + Python 库，外加一个庞大的插件生态（llm-gpt4all、llm-mistral、llm-claude 等，从2023 年起）

symbex（2023 年 6 月）—— 在 Python 代码里搜符号

ttok 和 strip-tags（2023 年 5 月）—— token 计数 + HTML cleanup 的CLI 工具，专门给 LLM 流水线用

datasette-lite（2022 年 5 月）—— 整个 Datasette 跑在浏览器里，通过 WebAssembly/Pyodide

shot-scraper（2022 年 3 月）—— 通过 Playwright 自动截网页图

s3-credentials（2021 年 11 月）—— 创建带 scope 的 AWS S3 凭证的 CLI

django-sql-dashboard（2021）—— Django 的 SQL 报表 dashboard

Dogsheep 套件（2019）—— 个人分析工具：twitter-to-sqlite、github-to-sqlite、healthkit-to-sqlite、dogsheep-beta 等

sqlite-utils（2018）—— SQLite 数据库的 CLI + Python 库

Datasette（2017 年 11 月）—— 他的旗舰项目；探索 + 发布数据的工具

csvs-to-sqlite（2017）—— 把 CSV 转成 SQLite

各种早期工具（~2007–2010）—— soupselect、json-head、geocoders 等等

Django（2003–2005 年开发，2005 年 7 月开源）—— 和 Adrian Holovaty 在 Lawrence Journal-World 一起做的

（顺便一提，GPT-5.5 列了比 Fable 还多的项目！）

过去我说过我不在乎 model 知道多少——我想要它们能操控文字和代码的方式有用，而且能主动用 search 工具查它们需要的信息，不要把这些烤进 weights 里。

但是这类知识是 model 大小一个相当好的代理指标——你可以往更多的参数里塞进关于世界的大量细节**。

model 知道更多东西是不是就等于它在我们交给它的任务上更厉害？我完全能想象一个对现代库和模式有更深的知识的 coding model 能更高效地啃 coding 任务。

Fable 真的比 Opus 大吗？Anthropic 没透露 model 大小，所以我们只能看占卜迹象，但速度、定价、加上我自己戳它知识库的结果让我觉得它是个大 model。也许是所有厂商迄今为止最大的。

在 Claude.ai 里用 Fable

Anthropic 把 Fable 5 铺到了所有 surface——Claude.ai chat 界面、Claude Code for web、Claude Code CLI 外加 Claude Cowork。这个 model 在订阅计划里「到 6 月 22 日为止」免费（我现在订的是 $100/月的 Max），之后会额外计费。

Claude.ai 经常被低估。从 2025 年 9 月起，每一次 chat 都可以访问一个完整的容器环境来跑代码，包括安装额外包的能力**，甚至可以直接从 GitHub 克隆仓库。

上周我发布了 micropython-wasm，一个用 wasmtime 跑 MicroPython WebAssembly 自定义 build 的 Python 库，用来当不受信 Python 代码的沙箱。

我决定看看 Fable 能不能把它升级到跑完整 Python。我从**这个 prompt 开始：

从 GitHub 克隆 simonw/micropython-wasm，研究一下它怎么从 MicroPython 升级到完整 Python

Fable 识别出可以用 Brett Cannon 的 cpython-wasi-build build 来做这件事，但是它自己下不了——环境限制。

所以我从那个页面抓了两个 zip 文件上传给 Claude：

这是 Brett Cannon 的 build（python-3.zip、_build-python-3.zip 作为附件）

然后它就这么开始了。它跑了几分钟，把整个东西都搞定了。

回复里有一段是这样的：

我试过更干净的 single-zip-stdlib 方案来缩文件系统面积，但是 CPython 的 getpath bootstrap 没法从 zip 里找到 encodings，除非做更多 prefix 微调—— directory-preopen 方案更可靠，所以 PoC 用的就是这个。zip 那条路是可以走通的，但需要 _PYTHONHOME/frozen-getpath 的工作**。

于是我说：

在 single-zip-stdlib 那个问题上再试一下

然后一会儿：

我想要一个 wheel，把整个系统**——Python wrapper、WASM 文件、stdlib 全打包进去，这样我能 uv run --with path-to-whl python -c "demo code"

……然后它就给我这个 13.9MB cpython_wasm-0.1.0-py3-none-any.whl 文件了。你可以这样用那个 wheel URL 和 uv 在沙箱里跑 Python 代码：

uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
  cpython-wasm -c 'print(45 ** 56)'

完整 chat transcript 在这里。

这是一个很强的开始。

用 Claude Code 给 Datasette Agent 和 LLM 加功能

在我意识到是 Fable 发布日之前，我今天的 stretch goal 是给 Datasette Agent 加一个新功能：我想要那个 agent 软件内部的 tool call 能在执行到一半时暂停，直接向用户请求批准。

这感觉是一个够分量的任务，可以丢给新 model。

那天 Fable 不仅把这个问题解决了，它还识别出**、然后实现了我底层 LLM 库里 4 个问题，专门为了支持这种高级 pause-resume 机制的 tool call。

它先用一些很丑的 hack 把一切跑通了，但是我告诉它 LLM 本身的改动也算在 scope 里的那一刻——它立刻开始拆那些 hack，把它们变成 LLM 的受支持**功能。

我的 stretch goal 变成了 LLM 0.32a3，几乎全部由 Fable 写。以下是 release notes：

受 Datasette Agent 的 human-in-the-loop ask_user() 功能驱动，对 tool call 如何工作做了以下改进：

Tool 实现可以声明一个叫 llm_tool_call 的参数，这样它们会被传当前调用的 llm.ToolCall 对象。这让它们能访问当前 llm_tool_call.tool_call_id。参见 Accessing the tool call from inside a tool。#1480

每一个 tool call 现在保证有唯一的 tool_call_id——不提供的 provider 会拿到一个**合成的 tc_ 前缀 ULID。#1481

Tool 可以抛一个 llm.PauseChain 异常来干净地暂停** tool chain，这对等待人类批准这种事很有用。异常会带 .tool_call 和 .tool_results（已完成的兄弟结果）传给调用方，而且****不会用占位结果做**一次 model 调用。参见 Pausing a chain from inside a tool。#1482

并发 tool 执行的失败语义：async 兄弟 tool call 总是在暂停或钩子异常向上传播之前跑完。#1482

Chain 现在可以从一个以未解析 tool call 结尾的 messages= 历史恢复：call 会通过正常的 before_call/after_call 机制执行**，然后才做第一次 model 调用，跳过那些已经有结果的。execute_tool_calls() 方法也接受一个新的可选 tool_calls_list= 参数，专门用来执行一个显式的 ToolCall 对象列表**，而不是用** response 请求的 call。参见 Resuming a chain with pending tool calls。#1482

修了一个 bug —— async tool executor 会静默丢掉对 tools= 里没有的 tool 的调用——现在这些会返回 Error: tool "..." does not exist 结果，对齐 sync executor。#1483

我对 Fable 在 API 设计、测试、代码、文档几方面做出来的质量真的很 impressed。我今天花了好几个小时做这件事，但感觉像是做了好几天的活**。

我今天花了多少

我最近开始用 AgentsView 来追踪我本地在所有不同 coding agent 之间的 LLM 使用。我今天发了一个** TIL：给 AgentsView 加自定义 Fable 定价，但我觉得****不久的将来就不需要这一步了。

设好价格后，我跑了这条命令来起一个本地 web 服务器看我的使用：

uvx agentsview serve

这里是今天我在各个项目之间的 Fable 使用分布** treemap：

[原图：成本归因 treemap 截图——主要大红色块 prod_datasette_agent $74.06 89.3%、蓝色 cloud $3.98 4.8%、青色 datasette $2.81 3.4%、粉色 money $1.92 2.3%、细橙条 simon $0.15。左侧 “Top Sessions by Cost” 列表：prod_datasette_agent 的 55.9M token 会话 $74.06；datasette 826.8k token $2.81；cloud 924.7k $2.61；money 542.9k $1.92；cloud 455k $1.37；simon 26.4k $0.15。右侧 “Cache Efficiency”：Cache Reads 57.6M（绿色几乎满条）、Cache Writes 769.3K、Uncached Input 64.4K、Output 300.9K（均极小条），绿色高亮 note：$516.62 saved vs uncached。]

我今天用了 $110.42 worth of token，全部算在我的 $100/月订阅里。

还有一些鹈鹚

我把”生成 SVG 骑自行车的鹈鹚**“这个 prompt 在 Fable 所有 5 个 thinking effort level 上跑了一遍**。

以下是结果，包括每个的 token 成本：

low: 1,929 out, 9.67¢
medium: 2,290 out, 11.475¢
high: 2,057 out, 10.31¢
xhigh: 5,992 out, 29.985¢
max: 14,430 out, 72.175¢

有意思的是 high 对这个特定 run 反而比 medium 用了更少 token。

这里是 Opus 4.8 的鹈鹚对比。

Posted 9th June 2026 at 11:59 pm · Follow me on Mastodon, Bluesky, Twitter or subscribe to my newsletter

This is Initial impressions of Claude Fable 5 by Simon Willison, posted on 9th June 2026.

Next: Claude Fable is relentlessly proactive

Previous: Running Python code in a sandbox with MicroPython and WASM

译者注

注 1：6/22 之后 Max 订阅按 token 计费的「5 thinking level × token 成本」决策表。Simon 6/9 这条 “骑自行车的鹈鹚 SVG” prompt 在 Fable 5 5 个 thinking level 上的 token 消耗是中文圈开发者今天最实用的预算决策依据。我们按 Simon 给的实测数据外推到中文圈典型场景：

low 1,929 out / 9.67¢：日常问答、简单 SQL、改一个 typo——9.67¢ / 单次 ≈ 0.7 元（按 $1 ≈ 7.2 元）。
medium 2,290 out / 11.475¢：写一整个工具函数、简单 refactor、debug 中等难度 bug——0.83 元 / 单次。
high 2,057 out / 10.31¢：更复杂的架构 / 多文件改动——0.74 元 / 单次。注意：high 在这个 run 里比 medium 还少 233 token——「thinking level 越高 ≠ token 越多」是 Fable 5 相对 Opus 4.8 的反直觉行为。
xhigh 5,992 out / 29.985¢：复杂 coding agent 任务、长程调试——2.16 元 / 单次。
max 14,430 out / 72.175¢：完整工程实现、端到端交付——5.20 元 / 单次。

外推到中文圈开发者一天的工作量——每天跑 50 次 low + 20 次 medium + 5 次 high + 3 次 xhigh + 1 次 max = 50×0.7 + 20×0.83 + 5×0.74 + 3×2.16 + 1×5.20 = 35 + 16.6 + 3.7 + 6.48 + 5.20 = 66.98 元 / 天。一个开发者一个月 = 22 工作日 × 67 = 1,474 元。如果全用 max：22 × 50×5.20 = 5,720 元 / 月。对比 6/22 快报里 Codex 5h 预算被 OpenAI 调高 10–20 倍——Fable 5 6/22 之后按 token 计费 + OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍 = 同一天同一周 OpenAI 和 Anthropic 同时把 frontier model 订阅制的「无限调用」承诺重新定价。对中文圈决策：今天起任何「AI 全员配发」的工程团队必须把**「team member / day = ¥67」作为「假设最便宜的 Fable 5 配发方案」的新 baseline**。

注 2：Fable 5 vs Opus 4.8 知识对比里”Opus 列 4 条 vs Fable 列 16 条”的含义。很多人会问：“Fable 列的项目更多 = 它更强？“Simon 自己也说：“我不care** model 知道多少**“——但他仍然把这个对比放在文章开头**。原因是：「模型知识量**」是「模型大小」的代理指标**（proxy）——OpenAI、Anthropic、Google DeepMind 在内部都用「模型能列出我的项目」这类trivia QA 准确率作为早期模型规模的判断信号**。Fable 5 在不开 search 的情况下比 Opus 4.8 多列12 个项目 + 准确年份 + 准确分类**——意味着 Fable 5 的预训练数据规模或知识蒸馏质量显著高于 Opus 4.8。对中文圈决策：「Claude Fable 5 = 当前 frontier model 里知识量最大的」这个判断对应「如果你的任务是「让 LLM 记住大量领域知识（法律 / 医学 / 金融）然后现场回答（不让 RAG / 不开 search）」——Fable 5 是当前最佳选择**。但反过来**——如果你的任务是「让 LLM 主动用 search / 工具查它不知道的东西」——Fable 5 的知识量优势就不重要了**，Opus 4.8 + tool use可能更便宜。

注 3：Fable 5 撞 guardrail 后自动 fallback到另一个 model**——中文圈企业 AI 选型最该抄的一条。Anthropic 6/9 公告里说：“those guardrails trigger often enough that the Claude API has new mechanisms for letting you know when you hit them, and even has a new option to request it falls back to another model automatically if something gets rejected”。配合 6/21 翻译里 Fable 5 在 Simon 实测里自己撞 guardrail 后降级到 claude-opus-4-8 的现场——Anthropic 在自家 model 矩阵里实现了「runtime fallback」：frontier model 不可用时回退到次 frontier model，且保留完整 transcript让降级后的 model 能继续。这跟 6/15 翻译里 Apple “Private Cloud Compute” TEE 隔离 + Anthropic 6/13 walked back policy 是第三种「AI 不可信时的回退路径」的工程方案**。对中文圈决策：今天起任何跑闭源 frontier model的企业AI Agent必须有至少2 条回退路径**：(a) model-level fallback——frontier 撞 guardrail 降级到次 frontier（Anthropic 默认支持）；(b) provider-level fallback——Anthropic 不可用 → 切到 OpenAI（要保留** transcript让新 provider 能继续**）；(c) infrastructure-level fallback——两个 provider 都不可用 → 切到本地小 model（Qwen3.6-27B / GLM-5.2 / MiniMax-M3 / 自托管）。绝大多数中文圈企业今天只有**(a)，没有(b)，更没有(c)——6/22 之后 Fable 5 按 token 计费 + OpenAI Codex 5h 预算 10–20 倍意味着**这三条回退路径从「nice to have」变成「must have」。

注 4：Fable 5 在 Claude.ai 里自带完整容器** + 能装包 + 能 git clone**——这是过去 6 个月Claude.ai 最大的单点改动。Simon 写**：“Since September 2025 every chat has had access to a full container environment to run code, including the ability to install additional packages and even clone repositories directly from GitHub.”这件事对中文圈开发者的含义**：(a) 「ChatGPT Code Interpreter」vs 「Claude.ai 完整 Linux 容器」——两者的「code execution sandbox」能力差距从 2025 年 9 月起就已经反转**；(b) Fable 5 6/22 之后按 token 计费 + 自带容器 = 「Fable 5 + Claude.ai」是最贵的**「LLM 编程环境」——但也是最完整的**（装包、git clone、文件系统、网络全有**）；(c) 对比 6/19 翻译里 Manish Goregaokar 警告的”未来式诈骗”——「Claude.ai 容器能 git clone**」意味着「如果一个 prompt injection 攻击拿到了你的 Claude.ai 会话上下文，它就能 git clone 你的私有仓库 + 装包 + 跑任意代码」——这是 6/19 翻译没提到的另一个AI Agent 攻击面。对中文圈决策：用 Claude.ai 跑 Fable 5的用户必须了解「Claude.ai 容器 = 一个你用户权限下的完整 Linux」这个事实，并据此配置「我的仓库对 Claude.ai 容器应该有 read-only 或特定子目录的访问**」等访问控制**。

注 5：Fable 5 自己写完的 LLM 0.32a3 async tool-call 协议**——中文圈企业 AI Agent framework 应该对标的 baseline。Simon 6/9 当天的 stretch goal只是给 Datasette Agent 加 human-in-the-loop ask_user()——但 Fable 5 顺手把** Simon 自己的** LLM 库的 async tool-call 整套协议给重构了：(a) llm_tool_call 参数让 tool 能拿到完整 call context；(b) synthesized tool_call_id 保证每个 call 有唯一ID；(c) llm.PauseChain 异常让 tool 能干净暂停；(d) async 兄弟 tool call 失败语义；(e) 从历史 messages 恢复 + execute_tool_calls(tool_calls_list=) 显式 list 入口；(f) 修了一个 async 静默丢 call 的 bug。这 6 项是目前中文圈开源 AI Agent framework 能拿到的最完整的async tool-call 协议基线——对比国产项目：Qwen-Agent / AgentScope / LazyLLM / AppBuilder等在 async tool-call + pause-resume + unique tool_call_id 这三件事上「完整实现」的不多。对中文圈决策：今天起任何**「企业 AI Agent framework」选型应该把「async tool-call + pause-resume + unique tool_call_id」作为硬性评估项；符合这3 项的framework才有能力支撑Fable 5 这种frontier model 的自主性。

注 6：Fable 5 “big model smell” 的含义——中文圈对「模型大小」vs「能力」的重新校准。Simon 用的词是”big model smell”——就像一个经验丰富的工程师走进一个数据中心凭「空调外机的声音**」 + 「机柜的嗡鸣」判断「这个机房的算力规模**」——Fable 5 给 Simon 的「big model smell」是：(a) 速度更慢（每 token 推理时间比 Opus 4.8 长）；(b) 价格更高（$10/M vs $5/M）；(c) 知识量更大（列 16 个 Simon 项目vs Opus 列 4 个）；(d) 答得更好（“我猜你说的是 Simon Willison”——比 Opus 的”我没有可靠清单”更有对话感）。这 4 个特征的综合是**「当前所有厂商里最大的大 model**」的判断**。对中文圈决策：「大 model smell」是一个难量化但可重复的 frontier model 成熟度判断方法**——当一个闭源 API 的新 model 同时表现出**(a) 慢 + (b) 贵 + (c) 知识量大 + (d) 对话感强 这 4 个特征——它大概率是当前「最大」的 frontier model**。

注 7：Fable 5 5 个 thinking level 在同一 prompt上的 token 消耗**“high 反而比 medium 少”这件事。Simon 写道：“It’s interesting that high ended up using fewer tokens than medium for this particular run”——这件事对中文圈企业 AI 成本管理的含义：(a) 「thinking level 越高 = 成本越高」是「通常」但「不总是」——取决于任务类型**；(b) 「骑自行车的鹈鹚 SVG」这种创造性 + 视觉生成任务——medium thinking反而会「想得太多」产生冗余 token**；(c) 建议中文圈生产环境的 AI coding agent 不要默认用** max / xhigh 跑所有任务——先用** medium 跑、如果失败再用** high**——多次跑比单次高 thinking level 跑更经济；(d) 一些任务（比如SQL 优化**、单元测试生成、多语言翻译）对「thinking」的依赖度低——用 low 就够；另一些任务**（复杂架构设计、多文件重构、长程 agent 工作流）对「thinking」的依赖度高——必须用** xhigh 或 max**——经验数据要看具体任务。

注 8：Fable 5 / Mythos 5 的safety classifier差异。Anthropic 6/9 公告：“Claude Mythos 5 is out today as well, Anthropic say it ‘Shares Claude Fable 5’s capabilities without the safety classifiers’.”这意味着**：(a) Fable 5 的safety classifier是「严」（Fable 5 撞 guardrail 更频繁）——针对「企业」/「开发者」/「研究」场景；(b) Mythos 5 不带safety classifier——「自由」（Mythos 5 撞 guardrail 更少）——针对「研究」/「高级用户」/「政府/国防」场景。这跟 6/10 翻译（“If Claude Fable stops helping you, you’ll never know”）+ 6/11 翻译（“Anthropic Walks Back Policy”）+ 6/16 翻译（“Fable 5 Export Controls Harm US Cyber Defense”）构成本月「Fable 5 / Mythos 5 safety classifier 政策」的完整四件套**——6/10 是「Fable 撞 guardrail 后会沉默地降低质量**」的原始爆料**；6/11 是「政策被撤回」；6/16 是「出口管制把 Fable 5 当国防威胁」；本文 6/9 是「Fable 5 = 严 guardrail 企业版、Mythos 5 = 无 guardrail 研究版」的原始产品架构。对中文圈决策：今天起做AI Agent framework 选型要把**「Fable 5」和「Mythos 5」作为两个不同的服务——企业C 端用 Fable 5 （有 guardrail、撞了会通知）；研究机构**/政府/国防用** Mythos 5 （无 guardrail、能力同 Fable 5）——两个 model 选哪个不是「能力」决策，是「安全」决策。

注 9：Fable 5 1M context window 和 128K max output 的工程含义。Anthropic 6/9 给的参数：(a) 1M token context window——比 GPT-5.5 的 400K 多 1.5 倍；(b) 128K max output token——比 GPT-5.5 的 64K 多 1 倍；(c) knowledge cut-off 2026 年 1 月——比 GLM-5.2 的 2025 年中更新。这3 个参数对中文圈企业的含义**：(a) 1M context意味着「Fable 5 能一次吃下一本400-500 页的书（中文约 30-50 万字）」——中文圈「用 LLM 读完整合同」/「用 LLM 读完整财报」/「用 LLM 读完整代码库」的应用从「RAG 分块」升级为「一次全读」；(b) 128K max output意味着「Fable 5 能一次输出一本50-80 页的书（中文约 5-8 万字）」——中文圈「用 LLM 一次写完整技术文档**」/「用 LLM 一次写完整代码模块**」的应用从「分章节」升级为「一次写完整」；(c) knowledge cut-off 2026 年 1 月意味着Fable 5 对 2026 年 1 月之前的事实有较高准确率，对 2026 年 2 月之后的事需要 search / RAG 补充。

注 10：本文 + 6/21 翻译 + 6/18 翻译 = Fable 5 三视角证据链。中文圈决策者今天应该把这3 篇作为**「Fable 5 决策包」：(a) 6/9 本文——「Fable 5 模型能力 + 定价 + 实测」基础面；(b) 6/18 翻译——「Fable 5 vs GLM-5.2 开源权重」对照面；(c) 6/21 翻译——「Fable 5 + Claude Code coding agent 行为」应用面。这 3 篇对中文圈决策者的使用方式**：第一步——用 6/9 决定「要不要用 Fable 5」（取决于知识量需求、预算、thinking level 选择）；第二步——用 6/18 决定「用 Fable 5 还是 GLM-5.2」（GLM-5.2 价低 4–7 倍、MIT 开源、能力 90% Fable 5）；第三步——用 6/21 决定「Fable 5 在 coding agent 场景下要怎么用」（必须有沙箱**、审计、fallback）。