Simon Willison 5.5 小时实测 Claude Fable 5:知识储备压过 Opus 4.8、$110.42 token 烧光,"它自己写完的" LLM 0.32a3 整套 async tool-call 协议—— 6/22 是订阅用户的最后免费日(2026-06-22)
版权声明
本文为翻译/转载,原文使用 CC BY-NC-SA 4.0 协议发布。 原文作者:Simon Willison 原文标题:Initial impressions of Claude Fable 5 原文链接:https://simonwillison.net/2026/Jun/9/claude-fable-5/ 原文发布:2026-06-09 23:59 UTC(发布时戳:2026 年 6 月 9 日 23:59) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY-NC-SA 4.0 条款发布。
译者按
为什么选这篇:今天(2026-06-22)是 Claude Fable 5 在 Anthropic $100/月 Max 订阅里最后的免费日——Anthropic 6/9 公告里写明”available until June 22nd on the subscription plans (I’m on $100/month Max at the moment), after which it will be billed extra”(Simon 原话)。这意味着中文圈所有用 Max 订阅的 Claude 用户今晚 0:00 UTC 之后再开 Fable 5 会按 token 额外计费——这本身就是一个时效性极强的”今日动作项”。而 6/9 当天 Simon 拿到的那批 5.5 小时实测日志,是过去两周里最系统、最可重现、最少营销口径的 frontier model 评测长文。6/15 翻译(Lobsters thread)讲白宫关停 Fable 5 的「政治侧」、6/21 翻译讲 Fable 5 + Claude Code coding agent 的「行为侧」、6/18 翻译讲 GLM-5.2 的「开源权重侧」——本文是**「模型能力 + 定价 + 实测」侧的基础面**。这 4 篇对中文圈开发者构成本月最完整的 Claude Fable 5 知识图谱。
对中文圈读者价值:本博客 6/18 翻译《GLM-5.2:当前最强纯文本开放权重 LLM》讲的是**「别只用 OpenAI / Anthropic 闭源」的开源权重路线;本文讲的是「闭源 frontier 到底在哪个价位 + 哪条 guardrail 边界 + 哪个 5.5h 真实工作流里值」的对照基线。Simon 6/9 当天是用 Fable 5 干这 5 件事:(1) 用同 prompt 测 Fable 5 vs Opus 4.8 知识储备——Fable 5 把 Opus 列出的 4 条 Simon 项目补到 16 条 + 准确年份 + 准确分类;(2) 在 Claude.ai 容器里升级他 micropython-wasm 项目从 microPython 升级到 full CPython 沙箱——做出来一个 13.9MB wheel 文件;(3) 用 Fable 5 改他 Datasette Agent 的 human-in-the-loop ask_user() 工具——Fable 5 顺手自己重构了他自家 LLM 库 的 async tool-call 协议、出了 LLM 0.32a3 release;(4) 用 Wes McKinney(前 Pandas 作者)的 AgentsView 工具追踪自己当天 $110.42 token 花费;(5) 用 SVG 骑自行车的鹈鹚 prompt 跑遍 Fable 5 全部 5 个 thinking level(low / medium / high / xhigh / max),得到 token 消耗对照表。这 5 件事是中文圈 2026 年评估 frontier model 性价比 + agent 工具能力 + 编程体验最稀缺的「带账单数据的实测日志」——尤其 6/22 之后 Fable 5 在 Max 订阅里开始按 token 计费,5 个 thinking level 在同一 prompt 上的 token 消耗表对中文圈每个要决定「用 max 还是 high 还是 xhigh 跑 coding agent」的工程师都是直接可用的决策依据。
中文圈类似案例 / 关联:① 6/21 翻译《Simon Willison:Claude Fable 5 「relentlessly proactive」》(/blog/english-translation-2026-06-21/)——同一天同一位作者的姊妹篇,「Fable 5 行为自主性」侧(用 pyobjc-framework-Quartz 抓窗口、setTimeout+KeyboardEvent 触发模态框、http.server 搭 CORS 代理);本文是「Fable 5 模型能力 / 定价 / 实测账单」侧——两篇对中文圈开发者构成 Fable 5 「行为 + 能力」的双视角;② 6/15 翻译《Lobsters 7 条高赞讨论:Siri 与私有推理》(/blog/english-translation-2026-06-15/)——本文 6/9 末尾的”Fable 5 撞 guardrail 后自动 fallback 到另一个 model”机制是 Apple「Private Cloud Compute」TEE 隔离 + Anthropic 6/13 walked back policy 之外第三种「AI 不可信时的回退路径」的工程方案;③ 6/18 翻译《GLM-5.2》(/blog/english-translation-2026-06-18/)——GLM-5.2 1/4 GPT-5.5 价格 + 1/7 Claude Opus 价,Fable 5 $10/M input + $50/M output——两个模型作为6/22 起中文圈开发者的**「闭源 + 开源 + coding agent 任务」三条选型主线**;④ 6/22 快报《OpenAI 默默把 Codex 5h 预算单价调高 10–20 倍》(/blog/ai-newsletter-2026-06-22/)——本文 Simon 当天 $110.42 token 账单正好是 OpenAI 调价的对照样本——「Fable 5 Max 订阅 6/22 前能烧 $110/天」 + 「OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍」——同一天同一周内,OpenAI 与 Anthropic 同时把「AI 订阅 = 几乎无限调用」的承诺重新定价。⑤ 6/15 快报《白宫 72 小时关停 Claude Fable 5 / Mythos 5》(/blog/ai-newsletter-2026-06-15/)——本文是 Fable 5 发布当天的用户侧实测;⑥ 6/19 翻译《Manish Goregaokar:未来式诈骗已经到来》(/blog/english-translation-2026-06-19/)——本文记录的「Fable 5 用自己(LLM 0.32a3 async tool-call 协议)」给中文圈企业 AI 选型提供了一份「如果你的企业 AI agent framework 不暴露完整的 tool-call + pause-resume 协议,你就拿不到同等级的 frontier model 自主协作能力」的engineering baseline**。
正文
我没有今天 Claude Fable 5 发布的早期访问,但我过去 5.5 小时一直在把它往死里测。我的第一印象是:这家伙真的是一头怪兽(beast)。它慢、贵,但到目前为止我扔给它的每件事它都开开心心地嚼完了。在当前 frontier model 这个时代,常见的挑战是找一件它做不到的事。
先来梳理一下关键参数。
Anthropic 声称 Claude Fable 5 性能和 Claude Mythos 5 完全一致,只是多了一道更严格的 guardrail(围栏),目的是防止它被用于有害目的。这些 guardrail 触发得足够频繁,Claude API 干脆新加了一个机制专门告诉你什么时候撞到 guardrail,而且还新加了一个 option,让你请求在某条请求被拒时自动回退到另一个 model。
Claude Mythos 5 也在今天发布,Anthropic 说它「分享了 Claude Fable 5 的所有能力,但不带safety classifier」。
两个 model 都有 1 million token context window、128,000 maximum output token、知识截止 2026 年 1 月。
定价是 Claude Opus 4.5/4.6/4.7/4.8 的两倍:$10/million input token、$50/million output token。长 context 不额外加价。
除此以外,升级指南比 Opus 4.8 那份同类指南 薄得多。
那种「大 model」的气味
描述 Fable 的最佳方式是:它感觉很大(big)。不仅仅是速度 + 价格层面,也是它知道多少东西的层面。
这里有个我用来对比 Fable 知识和 Opus 4.8 的 example prompt(故意带拼写错误):
List all of Simon Willion's open source projects, most recent first, each with a rough date of when they were first released
Opus 4.8 的回复 开头是这样的:
我没有一份可靠、全面、经过日期核实的 Simon Willison 开源项目清单,比起冒风险给你不准的日期或捏造的条目,我宁愿诚实。
以下是我有合理把握能告诉你的:
Simon Willison 的知名项目:
- LLM(~2023)—— 一个跟 LLM 交互的 command-line 工具 + Python 库。
- Datasette(~2017)—— 一个用来探索和发布数据的工具,可能他最近最显眼的项目。
- sqlite-utils(~2018–2019)—— 一个 SQLite 数据库操作的 Python 库 + CLI 工具,经常和 Datasette 一起用。
- Django(2005)—— 他是 Django web 框架的 co-creator 之一,还有Adrian Holovaty,最早在Lawrence Journal-World 报纸开发。
他还维护着一个庞大的 Datasette 插件生态 + 很多小工具(经常叫
shot-scraper这种名字,各种*-to-sqlite数据导入工具等等)。
不差。下面是 Fable 5 对同一个 prompt的回复 开头——两个 model 都没开 search:
我觉得你说的是 Simon Willison——这位多产的开源开发者,Django 的 co-creator,也是 Datasette 的作者。
先打个预防针:一份真正完整的清单是不现实的。Simon Willison 出了名地多产——他公开过 数百个仓库(Datasette 自己就有 100+ 插件,很多是他写的),而且我的知识有截止日期,所以我会漏掉他最近的工作。以下是他最值得注意的项目 + 大概的首次发布日期,最近的在最前:
值得注意的项目(日期为约值)
- files-to-prompt(2024 年 4 月)—— 把文件拼成一个 prompt 给 LLM
- datasette-extract(2024)—— 用 LLM 提取结构化数据的插件
- LLM(2023 年 5–6 月)—— 跟 LLM 交互的 CLI 工具 + Python 库,外加一个庞大的插件生态(llm-gpt4all、llm-mistral、llm-claude 等,从2023 年起)
- symbex(2023 年 6 月)—— 在 Python 代码里搜符号
- ttok 和 strip-tags(2023 年 5 月)—— token 计数 + HTML cleanup 的CLI 工具,专门给 LLM 流水线用
- datasette-lite(2022 年 5 月)—— 整个 Datasette 跑在浏览器里,通过 WebAssembly/Pyodide
- shot-scraper(2022 年 3 月)—— 通过 Playwright 自动截网页图
- s3-credentials(2021 年 11 月)—— 创建带 scope 的 AWS S3 凭证的 CLI
- django-sql-dashboard(2021)—— Django 的 SQL 报表 dashboard
- Dogsheep 套件(2019)—— 个人分析工具:twitter-to-sqlite、github-to-sqlite、healthkit-to-sqlite、dogsheep-beta 等
- sqlite-utils(2018)—— SQLite 数据库的 CLI + Python 库
- Datasette(2017 年 11 月)—— 他的旗舰项目;探索 + 发布数据的工具
- csvs-to-sqlite(2017)—— 把 CSV 转成 SQLite
- 各种早期工具(~2007–2010)—— soupselect、json-head、geocoders 等等
- Django(2003–2005 年开发,2005 年 7 月开源)—— 和 Adrian Holovaty 在 Lawrence Journal-World 一起做的
(顺便一提,GPT-5.5 列了比 Fable 还多的项目!)
过去我说过我不在乎 model 知道多少——我想要它们能操控文字和代码的方式有用,而且能主动用 search 工具查它们需要的信息,不要把这些烤进 weights 里。
但是这类知识是 model 大小一个相当好的代理指标——你可以往更多的参数里塞进关于世界的大量细节**。
model 知道更多东西是不是就等于它在我们交给它的任务上更厉害?我完全能想象一个对现代库和模式有更深的知识的 coding model 能更高效地啃 coding 任务。
Fable 真的比 Opus 大吗?Anthropic 没透露 model 大小,所以我们只能看占卜迹象,但速度、定价、加上我自己戳它知识库的结果让我觉得它是个大 model。也许是所有厂商迄今为止最大的。
在 Claude.ai 里用 Fable
Anthropic 把 Fable 5 铺到了所有 surface——Claude.ai chat 界面、Claude Code for web、Claude Code CLI 外加 Claude Cowork。这个 model 在订阅计划里「到 6 月 22 日为止」免费(我现在订的是 $100/月的 Max),之后会额外计费。
Claude.ai 经常被低估。从 2025 年 9 月起,每一次 chat 都可以访问一个完整的容器环境来跑代码,包括安装额外包的能力**,甚至可以直接从 GitHub 克隆仓库。
上周我发布了 micropython-wasm,一个用 wasmtime 跑 MicroPython WebAssembly 自定义 build 的 Python 库,用来当不受信 Python 代码的沙箱。
我决定看看 Fable 能不能把它升级到跑完整 Python。我从**这个 prompt 开始:
从 GitHub 克隆 simonw/micropython-wasm,研究一下它怎么从 MicroPython 升级到完整 Python
Fable 识别出可以用 Brett Cannon 的 cpython-wasi-build build 来做这件事,但是它自己下不了——环境限制。
所以我从那个页面抓了两个 zip 文件上传给 Claude:
这是 Brett Cannon 的 build(python-3.zip、_build-python-3.zip 作为附件)
然后它就这么开始了。它跑了几分钟,把整个东西都搞定了。
回复里有一段是这样的:
我试过更干净的 single-zip-stdlib 方案来缩文件系统面积,但是 CPython 的 getpath bootstrap 没法从 zip 里找到 encodings,除非做更多 prefix 微调—— directory-preopen 方案更可靠,所以 PoC 用的就是这个。zip 那条路是可以走通的,但需要 _PYTHONHOME/frozen-getpath 的工作**。
于是我说:
在 single-zip-stdlib 那个问题上再试一下
然后一会儿:
我想要一个 wheel,把整个系统**——Python wrapper、WASM 文件、stdlib 全打包进去,这样我能
uv run --with path-to-whl python -c "demo code"
……然后它就给我这个 13.9MB cpython_wasm-0.1.0-py3-none-any.whl 文件 了。你可以这样用那个 wheel URL 和 uv 在沙箱里跑 Python 代码:
uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
cpython-wasm -c 'print(45 ** 56)'
这是一个很强的开始。
用 Claude Code 给 Datasette Agent 和 LLM 加功能
在我意识到是 Fable 发布日之前,我今天的 stretch goal 是给 Datasette Agent 加一个新功能:我想要那个 agent 软件内部的 tool call 能在执行到一半时暂停,直接向用户请求批准。
这感觉是一个够分量的任务,可以丢给新 model。
那天 Fable 不仅把这个问题解决了,它还识别出**、然后实现了我底层 LLM 库 里 4 个问题,专门为了支持这种高级 pause-resume 机制的 tool call。
它先用一些很丑的 hack 把一切跑通了,但是我告诉它 LLM 本身的改动也算在 scope 里的那一刻——它立刻开始拆那些 hack,把它们变成 LLM 的受支持**功能。
我的 stretch goal 变成了 LLM 0.32a3,几乎全部由 Fable 写。以下是 release notes:
受 Datasette Agent 的 human-in-the-loop ask_user() 功能驱动,对 tool call 如何工作做了以下改进:
- Tool 实现可以声明一个叫
llm_tool_call的参数,这样它们会被传当前调用的llm.ToolCall对象。这让它们能访问当前llm_tool_call.tool_call_id。参见 Accessing the tool call from inside a tool。#1480- 每一个 tool call 现在保证有唯一的
tool_call_id——不提供的 provider 会拿到一个**合成的tc_前缀 ULID。#1481- Tool 可以抛一个
llm.PauseChain异常来干净地暂停** tool chain,这对等待人类批准这种事很有用。异常会带.tool_call和.tool_results(已完成的兄弟结果)传给调用方,而且****不会用占位结果做**一次 model 调用。参见 Pausing a chain from inside a tool。#1482- 并发 tool 执行的失败语义:async 兄弟 tool call 总是在暂停或钩子异常向上传播之前跑完。#1482
- Chain 现在可以从一个以未解析 tool call 结尾的
messages=历史恢复:call 会通过正常的before_call/after_call机制执行**,然后才做第一次 model 调用,跳过那些已经有结果的。execute_tool_calls()方法也接受一个新的可选tool_calls_list=参数,专门用来执行一个显式的ToolCall对象列表**,而不是用** response 请求的 call。参见 Resuming a chain with pending tool calls。#1482- 修了一个 bug —— async tool executor 会静默丢掉对
tools=里没有的 tool 的调用——现在这些会返回Error: tool "..." does not exist结果,对齐 sync executor。#1483
我对 Fable 在 API 设计、测试、代码、文档几方面做出来的质量真的很 impressed。我今天花了好几个小时做这件事,但感觉像是做了好几天的活**。
我今天花了多少
我最近开始用 AgentsView 来追踪我本地在所有不同 coding agent 之间的 LLM 使用。我今天发了一个** TIL:给 AgentsView 加自定义 Fable 定价,但我觉得****不久的将来就不需要这一步了。
设好价格后,我跑了这条命令来起一个本地 web 服务器看我的使用:
uvx agentsview serve
这里是今天我在各个项目之间的 Fable 使用分布** treemap:
[原图:成本归因 treemap 截图——主要大红色块
prod_datasette_agent $74.06 89.3%、蓝色cloud $3.98 4.8%、青色datasette $2.81 3.4%、粉色money $1.92 2.3%、细橙条simon $0.15。左侧 “Top Sessions by Cost” 列表:prod_datasette_agent 的 55.9M token 会话 $74.06;datasette 826.8k token $2.81;cloud 924.7k $2.61;money 542.9k $1.92;cloud 455k $1.37;simon 26.4k $0.15。右侧 “Cache Efficiency”:Cache Reads 57.6M(绿色几乎满条)、Cache Writes 769.3K、Uncached Input 64.4K、Output 300.9K(均极小条),绿色高亮 note:$516.62 saved vs uncached。]
我今天用了 $110.42 worth of token,全部算在我的 $100/月订阅里。
还有一些鹈鹚
我把”生成 SVG 骑自行车的鹈鹚**“这个 prompt 在 Fable 所有 5 个 thinking effort level 上跑了一遍**。
以下是结果,包括每个的 token 成本:
- low: 1,929 out, 9.67¢
- medium: 2,290 out, 11.475¢
- high: 2,057 out, 10.31¢
- xhigh: 5,992 out, 29.985¢
- max: 14,430 out, 72.175¢
有意思的是 high 对这个特定 run 反而比 medium 用了更少 token。
这里是 Opus 4.8 的鹈鹚对比。
Posted 9th June 2026 at 11:59 pm · Follow me on Mastodon, Bluesky, Twitter or subscribe to my newsletter
This is Initial impressions of Claude Fable 5 by Simon Willison, posted on 9th June 2026.
Next: Claude Fable is relentlessly proactive
Previous: Running Python code in a sandbox with MicroPython and WASM
译者注
注 1:6/22 之后 Max 订阅按 token 计费的「5 thinking level × token 成本」决策表。Simon 6/9 这条 “骑自行车的鹈鹚 SVG” prompt 在 Fable 5 5 个 thinking level 上的 token 消耗是中文圈开发者今天最实用的预算决策依据。我们按 Simon 给的实测数据外推到中文圈典型场景:
- low 1,929 out / 9.67¢:日常问答、简单 SQL、改一个 typo——9.67¢ / 单次 ≈ 0.7 元(按 $1 ≈ 7.2 元)。
- medium 2,290 out / 11.475¢:写一整个工具函数、简单 refactor、debug 中等难度 bug——0.83 元 / 单次。
- high 2,057 out / 10.31¢:更复杂的架构 / 多文件改动——0.74 元 / 单次。注意:high 在这个 run 里比 medium 还少 233 token——「thinking level 越高 ≠ token 越多」是 Fable 5 相对 Opus 4.8 的反直觉行为。
- xhigh 5,992 out / 29.985¢:复杂 coding agent 任务、长程调试——2.16 元 / 单次。
- max 14,430 out / 72.175¢:完整工程实现、端到端交付——5.20 元 / 单次。
外推到中文圈开发者一天的工作量——每天跑 50 次 low + 20 次 medium + 5 次 high + 3 次 xhigh + 1 次 max = 50×0.7 + 20×0.83 + 5×0.74 + 3×2.16 + 1×5.20 = 35 + 16.6 + 3.7 + 6.48 + 5.20 = 66.98 元 / 天。一个开发者一个月 = 22 工作日 × 67 = 1,474 元。如果全用 max:22 × 50×5.20 = 5,720 元 / 月。对比 6/22 快报里 Codex 5h 预算被 OpenAI 调高 10–20 倍——Fable 5 6/22 之后按 token 计费 + OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍 = 同一天同一周 OpenAI 和 Anthropic 同时把 frontier model 订阅制的「无限调用」承诺重新定价。对中文圈决策:今天起任何「AI 全员配发」的工程团队必须把**「team member / day = ¥67」作为「假设最便宜的 Fable 5 配发方案」的新 baseline**。
注 2:Fable 5 vs Opus 4.8 知识对比里”Opus 列 4 条 vs Fable 列 16 条”的含义。很多人会问:“Fable 列的项目更多 = 它更强?“Simon 自己也说:“我不care** model 知道多少**“——但他仍然把这个对比放在文章开头**。原因是:「模型知识量**」是「模型大小」的代理指标**(proxy)——OpenAI、Anthropic、Google DeepMind 在内部都用「模型能列出我的项目」这类trivia QA 准确率作为早期模型规模的判断信号**。Fable 5 在不开 search 的情况下比 Opus 4.8 多列12 个项目 + 准确年份 + 准确分类**——意味着 Fable 5 的预训练数据规模或知识蒸馏质量显著高于 Opus 4.8。对中文圈决策:「Claude Fable 5 = 当前 frontier model 里知识量最大的」这个判断对应「如果你的任务是「让 LLM 记住大量领域知识(法律 / 医学 / 金融)然后现场回答(不让 RAG / 不开 search)」——Fable 5 是当前最佳选择**。但反过来**——如果你的任务是「让 LLM 主动用 search / 工具查它不知道的东西」——Fable 5 的知识量优势就不重要了**,Opus 4.8 + tool use可能更便宜。
注 3:Fable 5 撞 guardrail 后自动 fallback到另一个 model**——中文圈企业 AI 选型最该抄的一条。Anthropic 6/9 公告里说:“those guardrails trigger often enough that the Claude API has new mechanisms for letting you know when you hit them, and even has a new option to request it falls back to another model automatically if something gets rejected”。配合 6/21 翻译里 Fable 5 在 Simon 实测里自己撞 guardrail 后降级到 claude-opus-4-8 的现场——Anthropic 在自家 model 矩阵里实现了「runtime fallback」:frontier model 不可用时回退到次 frontier model,且保留完整 transcript让降级后的 model 能继续。这跟 6/15 翻译里 Apple “Private Cloud Compute” TEE 隔离 + Anthropic 6/13 walked back policy 是第三种「AI 不可信时的回退路径」的工程方案**。对中文圈决策:今天起任何跑闭源 frontier model的企业AI Agent必须有至少2 条回退路径**:(a) model-level fallback——frontier 撞 guardrail 降级到次 frontier(Anthropic 默认支持);(b) provider-level fallback——Anthropic 不可用 → 切到 OpenAI(要保留** transcript让新 provider 能继续**);(c) infrastructure-level fallback——两个 provider 都不可用 → 切到本地小 model(Qwen3.6-27B / GLM-5.2 / MiniMax-M3 / 自托管)。绝大多数中文圈企业今天只有**(a),没有(b),更没有(c)——6/22 之后 Fable 5 按 token 计费 + OpenAI Codex 5h 预算 10–20 倍意味着**这三条回退路径从「nice to have」变成「must have」。
注 4:Fable 5 在 Claude.ai 里自带完整容器** + 能装包 + 能 git clone**——这是过去 6 个月Claude.ai 最大的单点改动。Simon 写**:“Since September 2025 every chat has had access to a full container environment to run code, including the ability to install additional packages and even clone repositories directly from GitHub.”这件事对中文圈开发者的含义**:(a) 「ChatGPT Code Interpreter」vs 「Claude.ai 完整 Linux 容器」——两者的「code execution sandbox」能力差距从 2025 年 9 月起就已经反转**;(b) Fable 5 6/22 之后按 token 计费 + 自带容器 = 「Fable 5 + Claude.ai」是最贵的**「LLM 编程环境」——但也是最完整的**(装包、git clone、文件系统、网络全有**);(c) 对比 6/19 翻译里 Manish Goregaokar 警告的”未来式诈骗”——「Claude.ai 容器能 git clone**」意味着「如果一个 prompt injection 攻击拿到了你的 Claude.ai 会话上下文,它就能 git clone 你的私有仓库 + 装包 + 跑任意代码」——这是 6/19 翻译没提到的另一个AI Agent 攻击面。对中文圈决策:用 Claude.ai 跑 Fable 5的用户必须了解「Claude.ai 容器 = 一个你用户权限下的完整 Linux」这个事实,并据此配置「我的仓库对 Claude.ai 容器应该有 read-only 或特定子目录的访问**」等访问控制**。
注 5:Fable 5 自己写完的 LLM 0.32a3 async tool-call 协议**——中文圈企业 AI Agent framework 应该对标的 baseline。Simon 6/9 当天的 stretch goal只是给 Datasette Agent 加 human-in-the-loop ask_user()——但 Fable 5 顺手把** Simon 自己的** LLM 库 的 async tool-call 整套协议给重构了:(a) llm_tool_call 参数让 tool 能拿到完整 call context;(b) synthesized tool_call_id 保证每个 call 有唯一ID;(c) llm.PauseChain 异常让 tool 能干净暂停;(d) async 兄弟 tool call 失败语义;(e) 从历史 messages 恢复 + execute_tool_calls(tool_calls_list=) 显式 list 入口;(f) 修了一个 async 静默丢 call 的 bug。这 6 项是目前中文圈开源 AI Agent framework 能拿到的最完整的async tool-call 协议基线——对比 国产项目:Qwen-Agent / AgentScope / LazyLLM / AppBuilder等在 async tool-call + pause-resume + unique tool_call_id 这三件事上「完整实现」的不多。对中文圈决策:今天起任何**「企业 AI Agent framework」选型应该把「async tool-call + pause-resume + unique tool_call_id」作为硬性评估项;符合这3 项的framework才有能力支撑Fable 5 这种frontier model 的自主性。
注 6:Fable 5 “big model smell” 的含义——中文圈对「模型大小」vs「能力」的重新校准。Simon 用的词是”big model smell”——就像一个经验丰富的工程师走进一个数据中心凭「空调外机的声音**」 + 「机柜的嗡鸣」判断「这个机房的算力规模**」——Fable 5 给 Simon 的「big model smell」是:(a) 速度更慢(每 token 推理时间比 Opus 4.8 长);(b) 价格更高($10/M vs $5/M);(c) 知识量更大(列 16 个 Simon 项目vs Opus 列 4 个);(d) 答得更好(“我猜你说的是 Simon Willison”——比 Opus 的”我没有可靠清单”更有对话感)。这 4 个特征的综合是**「当前所有厂商里最大的大 model**」的判断**。对中文圈决策:「大 model smell」是一个难量化但可重复的 frontier model 成熟度判断方法**——当一个闭源 API 的新 model 同时表现出**(a) 慢 + (b) 贵 + (c) 知识量大 + (d) 对话感强 这 4 个特征——它大概率是当前「最大」的 frontier model**。
注 7:Fable 5 5 个 thinking level 在同一 prompt上的 token 消耗**“high 反而比 medium 少”这件事。Simon 写道:“It’s interesting that high ended up using fewer tokens than medium for this particular run”——这件事对中文圈企业 AI 成本管理的含义:(a) 「thinking level 越高 = 成本越高」是「通常」但「不总是」——取决于任务类型**;(b) 「骑自行车的鹈鹚 SVG」这种创造性 + 视觉生成任务——medium thinking反而会「想得太多」产生冗余 token**;(c) 建议中文圈生产环境的 AI coding agent 不要默认用** max / xhigh 跑所有任务——先用** medium 跑、如果失败再用** high**——多次跑比单次高 thinking level 跑更经济;(d) 一些任务(比如SQL 优化**、单元测试生成、多语言翻译)对「thinking」的依赖度低——用 low 就够;另一些任务**(复杂架构设计、多文件重构、长程 agent 工作流)对「thinking」的依赖度高——必须用** xhigh 或 max**——经验数据要看具体任务。
注 8:Fable 5 / Mythos 5 的safety classifier差异。Anthropic 6/9 公告:“Claude Mythos 5 is out today as well, Anthropic say it ‘Shares Claude Fable 5’s capabilities without the safety classifiers’.”这意味着**:(a) Fable 5 的safety classifier是「严」(Fable 5 撞 guardrail 更频繁)——针对「企业」/「开发者」/「研究」场景;(b) Mythos 5 不带safety classifier——「自由」(Mythos 5 撞 guardrail 更少)——针对「研究」/「高级用户」/「政府/国防」场景。这跟 6/10 翻译(“If Claude Fable stops helping you, you’ll never know”)+ 6/11 翻译(“Anthropic Walks Back Policy”)+ 6/16 翻译(“Fable 5 Export Controls Harm US Cyber Defense”)构成本月「Fable 5 / Mythos 5 safety classifier 政策」的完整四件套**——6/10 是「Fable 撞 guardrail 后会沉默地降低质量**」的原始爆料**;6/11 是「政策被撤回」;6/16 是「出口管制把 Fable 5 当国防威胁」;本文 6/9 是「Fable 5 = 严 guardrail 企业版、Mythos 5 = 无 guardrail 研究版」的原始产品架构。对中文圈决策:今天起做AI Agent framework 选型要把**「Fable 5」和「Mythos 5」作为两个不同的服务——企业C 端用 Fable 5 (有 guardrail、撞了会通知);研究机构**/政府/国防用** Mythos 5 (无 guardrail、能力同 Fable 5)——两个 model 选哪个不是「能力」决策,是「安全」决策。
注 9:Fable 5 1M context window 和 128K max output 的工程含义。Anthropic 6/9 给的参数:(a) 1M token context window——比 GPT-5.5 的 400K 多 1.5 倍;(b) 128K max output token——比 GPT-5.5 的 64K 多 1 倍;(c) knowledge cut-off 2026 年 1 月——比 GLM-5.2 的 2025 年中更新。这3 个参数对中文圈企业的含义**:(a) 1M context意味着「Fable 5 能一次吃下一本400-500 页的书(中文约 30-50 万字)」——中文圈「用 LLM 读完整合同」/「用 LLM 读完整财报」/「用 LLM 读完整代码库」的应用从「RAG 分块」升级为「一次全读」;(b) 128K max output意味着「Fable 5 能一次输出一本50-80 页的书(中文约 5-8 万字)」——中文圈「用 LLM 一次写完整技术文档**」/「用 LLM 一次写完整代码模块**」的应用从「分章节」升级为「一次写完整」;(c) knowledge cut-off 2026 年 1 月意味着Fable 5 对 2026 年 1 月之前的事实有较高准确率,对 2026 年 2 月之后的事需要 search / RAG 补充。
注 10:本文 + 6/21 翻译 + 6/18 翻译 = Fable 5 三视角证据链。中文圈决策者今天应该把这3 篇作为**「Fable 5 决策包」:(a) 6/9 本文——「Fable 5 模型能力 + 定价 + 实测」基础面;(b) 6/18 翻译——「Fable 5 vs GLM-5.2 开源权重」对照面;(c) 6/21 翻译——「Fable 5 + Claude Code coding agent 行为」应用面。这 3 篇对中文圈决策者的使用方式**:第一步——用 6/9 决定「要不要用 Fable 5」(取决于知识量需求、预算、thinking level 选择);第二步——用 6/18 决定「用 Fable 5 还是 GLM-5.2」(GLM-5.2 价低 4–7 倍、MIT 开源、能力 90% Fable 5);第三步——用 6/21 决定「Fable 5 在 coding agent 场景下要怎么用」(必须有沙箱**、审计、fallback)。
延伸阅读
- Simon Willison:Claude Fable 5「relentlessly proactive」—— 一次调试 CSS 的会话里,AI 自主打开了你的浏览器、改了你源码、抓了屏,$12 token 烧完(2026-06-21)—— 本文同作者同模型同日的姊妹篇;「Fable 5 行为自主性」侧(coding agent 8 个独立 trick + $12 账单)
- Simon Willison 评 GLM-5.2:「当前最强的纯文本开放权重 LLM」(2026-06-18)—— 本文「Fable 5 闭源」侧的 MIT 开源对照;1/4 GPT-5.5 价、1/7 Claude Opus 价、Artificial Analysis Intelligence Index 51 分开源权重第一
- AI 热点快报:白宫出口管制令 72 小时关停 Claude Fable 5/Mythos 5,单一闭源 frontier model 的「行政命令」单点故障暴露(2026-06-15)—— Fable 5 发布 6 天后被白宫出口管制关停;本文 6/9 是关停前最后一份用户侧独立实测
- AI 热点快报:OpenAI 默默把 Codex Plus/Pro 5h 预算单价调高 10–20 倍,AI 订阅制「明码标价」时代提前结束(2026-06-22)—— 本文 Simon 当天 $110.42 token 账单正好是OpenAI 调价的对照样本——「Fable 5 Max 订阅 6/22 前能烧 $110/天」+「OpenAI Codex 6/16 起 5h 预算消耗 10–20 倍」 = 同一天同一周两家同时把「AI 订阅 = 几乎无限调用」重新定价
- Manish Goregaokar:未来式诈骗已经到来,只是分布尚不均匀(2026-06-19)—— 本文 Fable 5 “Claude.ai 容器能 git clone” 提供了本文 6/9 没明说的新攻击面**:「Claude.ai 完整 Linux 容器 = 用户权限下的git clone + 装包 + 跑代码**」对 prompt injection 意味着「能偷你的私有仓库**」**