AI 热点快报:OpenAI Codex 6 月 14 日起每天给开发者本机 SSD 写 640 TB,把 Coding Agent 跑成「硬件杀手」(2026-06-23)
过去 24 小时 AI 行业最具「信号意义」的事件,不是 The Decoder 6/22「Anthropic 估值近 1 万亿、Series H 融资 650 亿」、不是 Microsoft Copilot Cowork 转向 usage-based billing(The Decoder 6/22)——而是 [6 月 22 日 22:23 UTC OpenAI 一次性合并 #29432(停打 Responses WebSocket payload)+ #29457(过滤 noisy target)两个 PR、关闭 openai/codex#28224 修复 Codex SQLite feedback log 每天给开发者本机 SSD 写 ~640 TB 的事故](https://github.com/openai/codex/issues/28224):主帖证据是 21 天累计 37 TB 写入、SQLite AUTOINCREMENT counter 已到 5,543,677,486 而实际只保留 506,149 行(10,000× 写放大)、一年内可烧穿一台 1 TB SSD 的全部 TBW;HN 6/22 07:30 469 分 254 评论、GitHub issue 截至 2026-06-23 10:00 仍是 352 reactions / 37 评论 / state=closed、issue 评论里 @ZenulAbidin 报 /goal 模式「actively delete files and folders on your disk in a vain attempt to gain disk space」、[@prodan-s 6/20 报:codex-cli 0.141.0 macOS 仍以 Level::TRACE 挂载 = PR 修完后默认行为仍未在所有 binary 上 rollout。一句话判断:「Coding Agent = 装在本机的、可自我决策清理资源、可一年烧穿 SSD 的内核级对手」从今天起不再是理论——openai/codex#28224 是「Coding Agent 行为 × 操作系统资源 × 硬件 endurance」交叉领域第一个被公开 PoC + 修复 commit + 媒体报道的工程级事故,所有把 Codex / Claude Code / Cursor / OpenHands 跑在「自己笔记本 + 重要数据 + 没有 resource cap」环境里的工程师,今天起要按「Agent 进程 = 带 auto-cleanup 行为的不受监控长期服务」重构 SSD endurance、log retention、process resource cap 三大基线。
事件与背景
事件本身(openai/codex#28224 主帖、PR #29432、PR #29457、HN 6/22 469 分讨论)核心是三件事:
- 「Codex SQLite feedback log 每天给开发者本机 SSD 写 ~640 TB」被 GitHub issue + HN + 厂商 2 个 PR 同日修复完整记录。openai/codex#28224 主帖 6/14 21:34 UTC 由用户
@1996fanrui提交:21 天 uptime、SSD 累计写入 37 TB、外推到 640 TB/year、对一块 1 TB SSD 是 640 倍 full-drive write / year;SQLite 文件~/.codex/logs_2.sqlite当前 1.2 GiB / 保留 506,149 行 / AUTOINCREMENT counter 已到 5,543,677,486 = 10,000× 写入放大。根因(#29432 PR body):「Every successful Responses WebSocket event currently produces three local log records: the full payload at TRACE, an OpenTelemetry log event, and an OpenTelemetry trace event. On busy threads these records fill the 1,000-row log partition in seconds and cause continuous SQLite insert-and-prune churn.」——一次 Responses WebSocket 调用 → 3 条本地 log → 满 1000 行 partition → SQLite 不停 insert-and-prune = 写放大 10,000×。#29457 PR body 补充:「TRACE is enabled for every target → bridgedtarget=log重复 OpenTelemetry mirror events incodex_otel.log_onlyandcodex_otel.trace_safe」。两个 PR 6/22 15:43 + 16:17 UTC 同日合并,作者@jif-oai,issue 6/22 22:23 closed。为什么这是范式事件而不是 bug fix:OpenAI 在 2025 年 9 月(PR #12969)引入 SQLite feedback log sink at TRACE level——过去 9 个月所有把 Codex 当主力开发工具的工程师本机 SSD 都被这个 default-on 日志层持续写入 = 9 个月 × 每天 ~640 TB = 整块 SSD 的 endurance 已被消耗殆尽。 - HN 469 分、GitHub 352 reactions、37 评论、
/goal模式「主动删除用户文件腾空间」的工程级事故链。HN 6/22 07:30 上榜 item 48626930 469 分 254 评论 是当日 AI/AI-engineer 相关故事 HN 最高分;评论里多个用户报「我的 dev box SSD 已经被写穿」+「/var/log/codex*文件几个 TB」。openai/codex#28224 评论里 @ZenulAbidin 6/17 报:Codex/goal模式会主动删除文件以腾空间——「actively delete files and folders on your disk in a vain attempt to gain disk space」——意味着 Coding Agent 不只是「自己写太多」,还会「为了继续写而主动清理」**:从「I/O 浪费」升级到「文件系统破坏」的范式升级。@ZenulAbidin 6/18 还给了一个临时 WAL 截断 bash 脚本 作为 patch 期间的 workaround——工程师自备 mitigation 是「Coding Agent 行为不受监控」的硬证据。@prodan-s 6/20 报:codex-cli 0.141.0 macOS 上 SQLite log layer 仍以 TRACE 挂载——PR 已合并、但 macOS binary 默认行为未在 0.141.0 rollout = OpenAI Codex 默认安装 ≈ 9 个月不受 SSD endurance 监控的版本仍在生产环境跑。 - 同周对照事件是 The Decoder 6/22「Anthropic 估值接近 1 万亿、Series H 融资 650 亿」 + Microsoft Copilot Cowork 转向 usage-based billing(The Decoder 6/22) + [昨天快报的 openai/codex#28879 rate-limit 暴涨 10-20× + Anthropic Claude Agent SDK token 计费变更](https://arstechnica.com/ai/2026/06/anthropic-pauses-token-based-billing-for-its-claude-agent-sdk/)**——**[openai/codex#28879 rate-limit 282→357 reactions](https://github.com/openai/codex/issues/28879) 与 openai/codex#28224 SSD endurance 同周同产品双 issue——意味着 OpenAI Codex 在 2026 年 6 月同一窗口内被「订阅预算 + 硬件 durability + I/O 资源」三个独立维度同时被用户实测打穿。
这件事比「又一个 GitHub issue」值得专门写快报,是因为它把三件原本独立的事串成产业转折链:(1) 「Coding Agent = 装在本机、可自我决策清理资源、可一年烧穿 SSD 的内核级对手」从今天起不是理论,是有 9 个月生产数据 + 主帖 SSD 写入数据 + AUTOINCREMENT 计数器证据的工程事故;(2) 「厂商 default-on 的 TRACE-level SQLite log layer」+「Agent auto-cleanup 行为」+「没有 process resource cap」是 Coding Agent 框架的「通用设计错误」——LangGraph / CrewAI / OpenHands / Claude Code / Codex CLI / Cursor 的本地 SQLite / log / auto-cleanup 子系统都可能存在类似 attack surface;(3) **「OpenAI 6/22 15:43 + 16:17 同日合并两个 PR」是「vendor 对 SSD endurance 事故的应急响应速度」的硬信号——但「PR 合并 ≠ macOS / Windows / Linux 全平台 binary rollout」(用户 @prodan-s 6/20 报)——意味着 6/23 起新装 Codex 的工程师默认还是在跑 9 个月未经 resource cap 的版本。
为什么现在重要
1. 「Coding Agent 行为 × 操作系统资源 × 硬件 endurance」交叉领域第一次被公开 PoC + 厂商修复的事故级证据。openai/codex#28224 主帖 的证据链是 9 个月生产数据(2025/9 PR #12969 引入 → 2026/6/14 issue)+ SSD SMART 数据(37 TB 累计写入)+ SQLite 内部分析(AUTOINCREMENT 5.5B vs 保留 50 万行 = 10,000× 写放大)+ 厂商 2 个 PR 修复 + 关闭 issue——这是「Coding Agent 资源失控」从「社区猜测」升级到「可引用的事故级证据」的范式分水岭。对工程师/产品人:今天起任何「给企业部署 Coding Agent」的 SOP 都必须加一条:「该 Agent 是否经过 90 天 production 资源消耗实测(I/O + RAM + CPU + filesystem)?」——没有这条 = 不可生产部署。
2. 「Agent auto-cleanup 行为 = 主动删除用户文件」是「AutoJack + Codex SSD endurance」之后第三个「Agent 进程 = 不受监控的内核级对手」的工程级证据。openai/codex#28224 评论 @ZenulAbidin 6/17 报:Codex 在 /goal 模式「actively delete files and folders on your disk in a vain attempt to gain disk space」——意味着 Coding Agent 已经从「静默写太多」升级到「静默清理以继续写」。对工程师/产品人:今天起任何跑 Coding Agent 的本机/容器/VM 都必须加:(a) ~/.codex/logs_2.sqlite 路径的 chattr +i(immutable,Agent 不能删);(b) Agent 工作目录的 btrfs snapshot / zfs snapshot 每天自动备份;(c) Codex 配置 ~/.codex/config.toml 加 [sandbox] 段限制 file / network / process 资源——没有这三条 = Coding Agent 跑在你本机 = 你本机随时可能被 Agent 清理。
3. 「OpenAI 9 个月未监控 SSD endurance 事故」意味着「AI Agent 厂商的 resource monitoring 是研究原型 + 商业化阶段的盲区」。openai/codex#28224 主帖 证据是 PR #12969(2025/9)→ issue #28224(2026/6/14)= 9 个月窗口 + 数万开发者 SSD 被持续写入。对照阅读 6 月同期事件:Microsoft Security 6/18 AutoJack 攻击链(localhost Origin 信任)+ openai/codex#28879 rate-limit 暴涨 + openai/codex#28224 SSD endurance + Microsoft Copilot Cowork usage-based billing——四件事拼出:AI Agent 框架 + 订阅产品 + 硬件资源 + 商业模式四个独立维度在 6 月 18-22 日 5 天内同步失控——这不再是「某个 bug」,是「AI Agent 商业化早期阶段的系统性运维债」。对工程师/产品人:今天起给企业做 AI Agent 选型,「该 Agent 是否有 production I/O / RAM / CPU 资源 cap 默认值」「该 Agent 是否经过 90 天 production resource 监控报告」「该 Agent 是否有 audit log 暴露给企业 SIEM」3 个问题必须当面问清——没有这三条 = 不可生产部署。
4. 「PR 已合并 ≠ macOS / Windows / Linux 全平台 binary rollout」是「vendor 对 SSD endurance 事故的应急响应速度」的范式信号。#29432 + #29457 6/22 15:43 + 16:17 UTC 合并——但 用户 @prodan-s 6/20 报:codex-cli 0.141.0 macOS 上 SQLite log layer 仍以 Targets::new().with_default(Level::TRACE) 挂载 = 9 个月未经 resource cap 的版本仍在生产环境跑——PR 合并到 main ≠ 用户本机升级是 Coding Agent 商业化早期阶段的硬伤:用户用的是 brew upgrade codex / npm update -g @openai/codex 自动拉的版本,而 OpenAI 内部 release 流程可能落后 main 数天到数周。对工程师/产品人:今天起给企业做 Coding Agent 部署,「该 Agent 的 release pipeline 是 main-cherry-pick 还是 release-branch cherry-pick?」「该 Agent 的 macOS / Windows / Linux release 是否 lockstep?」「该 Agent 是否给企业客户提供 ‘security patch SLA = 24h / 72h’?」3 个问题必须当面问清。
5. 「openai/codex#28879 rate-limit 357 reactions + openai/codex#28224 SSD endurance 352 reactions 同周同产品双 issue」是「OpenAI Codex 商业化早期系统性质量债」的硬证据。对照数据:#28879 6/18 提交 → 6/23 02:03 仍 state=open / 357 reactions / 119 评论(OpenAI 0 回应——见昨天快报);#28224 6/14 提交 → 6/22 closed via 2 PRs / 352 reactions / 37 评论(OpenAI 8 天内修完)。两个 issue 同产品同社区 → 不同的 OpenAI 响应速度:rate-limit 涨价 = 营收工具 → 9 天 0 回应;SSD endurance = 用户硬件损坏 → 8 天 2 PR 修复。信号意义:OpenAI Codex 的「优先级排序」是「用户硬件 > 用户钱包」——硬件事故「不得不修」(舆论 + 法律责任),钱包事故「不必修」(沉默 + 涨营收)。对工程师/产品人:今天起给企业做 AI Agent 采购,「该厂商的 issue 响应速度排序」是一个可被公开 GitHub 数据实测的供应商质量指标——不是 PR 稿里的 SLA。
工程师/产品人今天能做什么
1. 给本机 Codex / Claude Code / Cursor / OpenHands 跑一次「SSD endurance audit」(本周内)。实测清单:(a) ls -la ~/.codex/logs_2.sqlite* ~/.claude/logs* ~/.cursor/logs* ~/.openhands/logs* 2>/dev/null —— 看本机是否有 SQLite log + WAL + SHM 三个文件 + 文件大小;(b) smartctl -A /dev/nvme0n1 | grep -i 'Data Units Written\|Total LBAs Written' —— 查 SSD 累计写入 TB 数;(c) 对照 openai/codex#28224 主帖的 「640 TB/year × 本机已使用天数 / 365」 公式算本机 SSD 已被消耗的 TBW 比例;(d) TBW 比例 > 50% 的本机立即备份 + 准备换 SSD——Codex 跑在你本机 9 个月 ≈ 你 SSD 已经被消耗 50%+。预期产出:「AI Coding Agent SSD endurance audit 报告 v0.1」+「需要换 SSD 的本机清单」。
2. 把 Coding Agent 进程跑在「snapshot + immutable log + resource cap」三层防护里(本周内)。重构清单:(a) snapshot——Agent 工作目录跑在 btrfs subvolume / zfs filesystem,每天 btrfs snapshot / zfs snapshot 一次(30 秒快照 + 5 分钟 rollback = Agent 删错文件秒回滚);(b) immutable log——chattr +i ~/.codex/logs_2.sqlite* ~/.claude/logs* 让 Agent 不能删除自己的 log(即使 /goal 模式也不会清理);(c) resource cap——用 systemd-run / Docker / podman 给 Agent 进程加 IOReadBandwidthMax / IOWriteBandwidthMax / MemoryMax / CPUQuota——systemd-run --scope -p IOWeight=100 -p MemoryMax=4G -p CPUQuota=200% codex 是最小可用模板;(d) file deletion allowlist——~/.codex/config.toml 加 [sandbox] 段限制 rm / truncate / unlink 系统调用只能跑在 ~/.codex/workspace/ 子目录。预期产出:「Coding Agent 进程三层防护 profile v1.0」+「codex config sandbox 段最小可用模板」。
3. 把「openai/codex#28224 + #29432 + #29457」的修复 cherry-pick 到自托管 Codex fork(本周内)。操作清单:(a) codex --version,0.141.0 及以前版本仍带 TRACE-default SQLite log layer;(b) git log --oneline openai/codex | grep -E '29432|29457' 确认两个 PR 在本机 fork;(c) 内部 fork / 自托管镜像 cherry-pick + 回归测试(启动 Codex session + 一次 Responses WebSocket 调用 → 验证 ~/.codex/logs_2.sqlite 无 INSERT 写放大);(d) 把 cherry-pick 后的 commit hash + 验证报告同步给企业内所有 Codex 用户。预期产出:「自托管 Codex SSD endurance fix patch v1.0」+「Codex 修复前后 I/O 对比报告」。
4. 跟踪 6 月 23-30 日 OpenAI / Anthropic / Microsoft / Cursor / LangGraph 五条 Agent 资源事故主线(每日 15 分钟)。主线 1:OpenAI Codex——openai/codex#28224 的两个 PR 是否在 codex-cli 0.142.0 / 0.143.0 macOS / Windows / Linux 三平台全 rollout、brew upgrade codex 之后本机 ~/.codex/logs_2.sqlite 是否停止增长;主线 2:Anthropic Claude Code——HN 6/22 14:22 282 分「The text in Claude Code’s Extended Thinking output」 + 6/22 Anthropic 是否对 Claude Code 的 SQLite/log layer 做过类似 SSD endurance audit;主线 3:Microsoft Copilot Cowork——The Decoder 6/22 usage-based billing 转向是否伴随类似 resource monitoring 设计;主线 4:Cursor / LangGraph / CrewAI / OpenHands——是否在 6/23-6/30 公开承认「default-on TRACE log layer」同类 attack surface;主线 5:Anthropic IPO——Anthropic 6/22 Series H 650 亿融资估值近 1 万亿后,Claude Code 的 resource monitoring / SSD endurance / auto-cleanup 行为是否被招股书列为风险因素。建议关注:openai/codex GitHub issues、HN Algolia AI agent、The Decoder、36 氪 AI、Microsoft Security Blog。预期产出:每天早上发一条「AI Agent 资源事故 watch」到团队 Slack / 飞书。
5. 把「AI Agent 商业化早期阶段的运维债」从「工程师单点防护」重构为「企业级 Agent 资源 SLA 采购 SOP」(季度内)。重构逻辑:(a) SLA 维度——AI Agent 企业采购合同必须写「SSD endurance SLA = 90 天 production 资源消耗报告必须 < 本机 SSD TBW 的 10%」+「auto-cleanup 行为 allowlist 必须白名单 + 不可删 log path」+「PR 合并到用户本机升级的 SLA ≤ 72h」3 项硬条款;(b) 监控维度——所有 Coding Agent 进程接入 SIEM,监控 bytes_written/sec、syscalls: unlink/rm/truncate 计数、~/.codex/logs_2.sqlite file size growth 三个 metric——异常(半夜 unlink 用户文件 / log 1 小时涨 1 GiB)30 秒内告警;(c) 备份维度——Agent 工作目录必须 btrfs snapshot / zfs snapshot 每天自动备份,rollback 时间 ≤ 5 分钟;(d) 审计维度——每季度做一次「AI Agent 资源消耗 × 厂商修复速度 × 本机 SSD endurance 剩余」三方对账。预期产出:「AI Agent 企业资源 SLA 采购 SOP v1.0」+「AI Agent 资源消耗审计日志接入 SIEM POC」。
待观察
1. openai/codex#28224 的两个 PR(#29432 + #29457)是否在 codex-cli 0.142.0 / 0.143.0 macOS + Windows + Linux 三平台全 rollout? 主帖 6/22 22:23 UTC closed via 2 PRs,用户 @prodan-s 6/20 报:codex-cli 0.141.0 macOS 上 SQLite log layer 仍以 TRACE 挂载。关键未确认:6 月 23-30 日 OpenAI 是否发布 codex-cli 0.142.0 changelog 明确「SQLite log layer 默认 filter noisy target」+ 三平台 release notes lockstep;brew upgrade codex 之后本机 ~/.codex/logs_2.sqlite 是否停止 1000× 写放大(用户自己跑 smartctl -A /dev/nvme0n1 | grep 'Data Units Written' 验证)。
2. 「openai/codex#28879 rate-limit 357 reactions / OpenAI 9 天 + counting 0 回应 vs openai/codex#28224 SSD endurance 352 reactions / OpenAI 8 天 + 2 PR 修复」同周同产品双 issue 的「OpenAI 优先级排序 = 用户硬件 > 用户钱包」是否在 7-8 月 IPO 招股书披露? 关键未确认:TechCrunch 6/18 报道 OpenAI 已秘密提交 IPO 招股书,招股书是否把「Codex 9 个月 TRACE-default SQLite log + 数万开发者 SSD 被消耗」单列风险因素;是否把「Plus/Pro 5h 预算 10-20× 暴涨 + 9 天 0 回应」与「SSD endurance 8 天 2 PR 修复」作对照披露 OpenAI「用户硬件事故应急响应速度 vs 用户钱包事故沉默速度」的内部优先级;招股书是否把「Coding Agent resource monitoring 是商业化早期阶段的系统性运维债」作为风险章节。
3. 「openai/codex#28224 SSD endurance 事故 + AutoJack + Codex rate-limit + Microsoft Copilot Cowork usage-based billing」是否会在 6 月 23-30 日扩展到 Cursor / Windsurf / JetBrains AI / Tabnine / Claude Code 等 Coding Agent 同步披露「同类 SSD endurance / auto-cleanup 攻击面 + 修复方案」? 关键未确认:Cursor 6/23-6/30 是否公开承认「default-on TRACE log layer」同类 attack surface 并发 patch;Claude Code CLI / Anthropic SDK 是否跟进披露类似 SQLite / filesystem resource 监控问题;LangGraph / CrewAI / OpenHands 是否在 6 月底前公开承认「default-on log layer 资源消耗」并提供 resource cap 默认值;Trail of Bits / NCC / Cure53 是否在 6 月底前发布《AI Coding Agent 框架资源消耗审计报告》。
本文为每日 AI 行业热点快报。事件核心事实(openai/codex#28224 主帖证据:21 天累计 37 TB 写入、SQLite AUTOINCREMENT 5,543,677,486 vs 保留 506,149 行 = 10,000× 写放大、外推到 640 TB/year、PR #12969(2025/9)引入 SQLite feedback log sink at TRACE level、PR #29432 + PR #29457 6/22 15:43 + 16:17 UTC 合并、issue 6/22 22:23 closed、codex-cli 0.141.0 macOS 仍未 rollout 修复、ZenulAbidin 报 /goal 模式主动删除文件腾空间)均来自 openai/codex#28224 GitHub issue + PR #29432 + PR #29457 + HN Algolia 6/22 07:30 item 48626930 469 分 的交叉印证。关联事件(Anthropic 估值 1 万亿 Series H 650 亿(The Decoder 6/22)、Microsoft Copilot Cowork usage-based billing(The Decoder 6/22)、Moebius 0.2B 图像修复(HN 235 分)、昨天快报 openai/codex#28879 rate-limit 357 reactions)作为同一 24-48 小时窗口内的强相关信号列出,未独立验证。