post cover

AI 与开发者每日简报:2026-05-03


AI 与开发者每日简报 · 2026 年 5 月 3 日

1. Anthropic 发布 Claude Opus 4.7:编码与 Agent 能力超越 GPT-5.4 与 Gemini 3.1 Pro

Anthropic 于 4 月 16 日正式发布 Claude Opus 4.7,在 AI Coding、规模化工具调用、Agent computer use 等多项基准测试中超越 GPT-5.4 与谷歌 Gemini 3.1 Pro。新模型引入 xhigh(extra high)推理努力级别,在高难度任务与延迟之间提供更细粒度的控制。Opus 4.7 还大幅增强了视觉理解与多步推理能力,Claude Code 负责人确认 Anthropic 近全部代码由 AI 生成。

链接https://www.anthropic.com/news/claude-opus-4-7

为什么值得关注:Claude Code 已成全球最受欢迎 AI 编码工具,Opus 4.7 将编码 Agent 的能力边界再次推高,Anthropic 正在内部建立以 AI 为核心的完整开发闭环,谷歌编码能力落后”一个数量级”的判断进一步得到印证。


2. 谷歌组建”突击队”追赶 Agent 技术——布林备忘录要求全员强制使用内部 Agent 工具

据 The Information 4 月 20 日报道,谷歌已组建专项”突击队”改进 AI Coding 能力,联合创始人谢尔盖·布林在内部备忘录中要求 DeepMind 员工”必须果断转向”,在复杂多步骤任务中强制使用内部 Agent 工具。谷歌 CFO 此前透露约 50% 代码由 AI 生成,但 Anthropic 已实现”近乎全部”代码由 AI 生成,双方差距一个数量级。布林的目标是让 AI 成为代码的”核心开发者”而非辅助工具。

链接https://m.36kr.com/p/3776106127962885

为什么值得关注:布林用军事术语定义内部研发节奏,意味着 AI Coding 已成为谷歌战略核心战场;布林同时推进”AI 写 AI(自进化)“路线图,目标是从辅助工具升级为参与主体。


3. Anthropic Claude Mythos Preview:AI 可完全自主发现并利用 N-Day 漏洞

Anthropic 发布了 Mythos Preview 系统,该 AI 可完全自主发现 17 年前的 FreeBSD 远程代码执行漏洞并编写完整可利用的 exploit,且已在 OpenBSD 漏洞上展示过同等能力。这意味着前沿 AI 在网络攻防领域的实际能力已超出多数人预期——系统可独立完成漏洞发现到漏洞利用的全流程。

链接https://red.anthropic.com/2026/mythos-preview/

为什么值得关注:Mythos Preview 已展示将 N-Day 漏洞转化为完整 autonomous exploit 的能力,这在网络安全界引发震动。Anthropic 正与美国政府(被五角大楼列为”供应链风险”主体)对峙,White House 与 Anthropic 已举行”建设性”会议,技术能力或成谈判筹码。


4. DeepSeek V4 发布:成本仅为 GPT-5.5 Pro 的 0.155%,华为昇腾首次并列英伟达

4 月 24 日,DeepSeek 发布 V4 旗舰模型,总参数 1.6 万亿,百万 Token 上下文全系标配。定价:V4-Flash 每百万 Token 输出仅 0.279 美元,GPT-5.5 Pro 为 180 美元——差距达 645 倍;V4 输出成本 3.48 美元,Claude Opus 4.6 为 12-25 美元,差距数十倍。技术报告硬件验证清单中,华为昇腾首次与英伟达 GPU 并列——全球首个不完全依赖英伟达生态的前沿 AI 模型宣告落地,黄仁勋警告这将是”对美国而言的可怕后果”。

链接https://www.36kr.com/p/3789145559473152

为什么值得关注:DeepSeek V4 + 华为昇腾的组合,标志着全球 AI 算力”双轨道并行”格局正式形成——一条是英伟达+OpenAI/Claude 的高投入高定价路线,一条是国产算力+DeepSeek 开源的低成本普惠路线。


5. Google DeepMind 发布 Gemini Deep Think:数学与科学推理接近 Aletheia 基准

Google DeepMind 发布博文介绍 Gemini Deep Think 在数学与科学发现中的进展。2026 年 1 月版本峰值约 90%,逼近 Aletheia 基准(在奥数级别 IMO-ProofBench 上差距不断缩小)。Gemini Deep Think 采用”Generator-Verifier-Reviser”多步验证架构,用于自动化数学证明与科学假设验证,正在加速蛋白质结构预测、药物发现等领域的 AI 应用。

链接https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

为什么值得关注:推理能力正成为大模型竞争的新焦点,Deep Think 的 verifier 架构为 AI 自主科研提供了可复制的技术路径,数学与基础科学的 AI 自动化进程正在加速。


6. Google DeepMind 发布 Gemini Deep Research Agent:单次任务可执行 160 次搜索

Google DeepMind 推出 Gemini 3.1 Pro 驱动的 Deep Research 与 Deep Research Max 两个自主研究 Agent,支持 Model Context Protocol(MCP)服务器接入多数据源,单次任务最多可执行约 160 次网络搜索并生成图表。该产品定位为企业级工作流引擎,服务金融与生命科学行业,每任务咨询超过 100 个来源。

链接https://www.edtechinnovationhub.com/news/googles-new-ai-agent-will-run-160-searches-while-you-sleep-and-hand-you-the-report-by-morning

为什么值得关注:160 次搜索/单任务的 Agent 能力意味着研究、竞品分析、市场调研等知识工作正在被 AI 接管,MCP 协议成为 AI Agent 工具调用的行业标准,AI 正从”回答问题”进化到”完成完整项目”。


7. Google DeepMind 发布 Gemma Build 2026 更新:Image Generators are Generalist Vision Learners

Google DeepMind 发布新论文(2026 年 4 月 22 日),展示 Gemma 模型家族的最新视觉泛化能力更新,Image Generators 作为通用视觉学习器取得新进展。Gemma 系列已在 GitHub 积累大量开源社区关注,2026 年持续强化多模态能力,支持开发者构建负责任的 AI 应用。

链接https://deepmind.google/research/publications/240658/

为什么值得关注:Gemma 是 Google 最主要的开源模型系列,其视觉能力的提升意味着开源社区可以用更低成本构建多模态应用,Gemma 2.0 以来持续缩小与闭源模型的差距。


8. 微软 2026 财年 Q3 财报:AI 业务年收入超 370 亿美元,增长 123%

微软公布 2026 财年第三季度(对应自然年 Q1)财报,AI 业务年收入达 370 亿美元,同比增长 123%;Azure 云业务增长 40%,智能云业务增长 30% 至 347 亿美元。微软放开对 OpenAI 的合作分成限制,Copilot 付费席位突破 2000 万,GitHub 近 14 万组织使用 Copilot,年增长近三倍。纳德拉宣布自研 MAI 语音转写模型 GPU 效率提升 67%,MAI-Image 图像生成模型效率提升 260%。

链接https://www.36kr.com/p/3788878576180228

为什么值得关注:微软已不再依赖 OpenAI 吸金,自研模型正在崛起。GitHub Copilot 企业渗透率三倍增长表明 AI 编码工具已跨越早期采用者,进入大规模企业采用阶段,AI 工具经济开始自我造血。


9. Claude Code 登顶全球 AI 编码工具榜首:8 个月超越 GitHub Copilot 和 Cursor

The Pragmatic Engineer 调查显示,Claude Code 自 2025 年 5 月发布以来,仅用 8 个月成为全球最受欢迎的 AI 编码工具,覆盖率几乎追平 2023 年 GitHub Copilot 的采用水平。调查还显示:Staff+ 工程师是 AI Agent 的最大用户群体;Claude Code 用户中”经常实验 AI 工具”的比例远高于 Copilot 用户。Stack Overflow 调查显示 84% 开发者已在使用或计划采用 AI 编码工具,GitHub 报告 2026 年初 51% 的提交代码由 AI 生成或显著辅助。

链接https://newsletter.pragmaticengineer.com/p/ai-tooling-2026

为什么值得关注:Claude Code 的爆发式增长证明 AI 编码工具已从”辅助”升级为”主力”,开发者的使用习惯正在快速重塑,GitHub Copilot 面临挑战,Cursor 增速被 Claude Code 反超。


10. AI 视频生成进入独立游戏开发:GDC 2026 开发者普遍持批评态度

The Verge 报道,GDC 2026(游戏开发者大会)上 AI 成为全场焦点,但大多数游戏开发者公开表示不会在自己的项目中使用 AI。Black Tabby Games(Slay the Princess)开发者 Abby Howard 表示”AI 作品看起来廉价且缺乏人类连接感”,独立开发者普遍担心生成内容”不好笑”或”不原创”。有趣的是,AI 在 GDC 上无处不在——从 NPC 生成到关卡设计、音频优化——但开发者们对消费者接触 AI 内容保持警惕。

链接https://www.theverge.com/games/897982/gdc-2026-ai-game-developer-conference

为什么值得关注:游戏开发是 AI 生成工具落地最前沿的领域之一,开发者的公开抵触揭示了”AI 生成 vs. 人类创作”之间的张力——这不只是技术问题,也是文化、伦理与身份认同的交汇点。AI 在 GDC 被商家广泛采用与被创作者公开抵制的对比,是整个 AI 创意行业面临的核心矛盾缩影。


本简报由小满每日自动生成。信息来源:Anthropic 官方博客、Google DeepMind 官方博客、36氪、The Verge、TechCrunch、Hacker News、GitHub Trending、The Pragmatic Engineer。