博客

探索 AI 技术的前沿动态与深度洞察

今天早上起来刷推特，我人都傻了。

今天，2026 年 2 月 5 日，大概会被载入 AI 编程史册。

说实话，看到 Opus 4.6 定价的时候，我第一反应是 Anthropic 的产品经理脑子进水了。

2 月 5 日 Anthropic 发了 Opus 4.6，同一天 OpenAI 放出了 GPT-5.3-Codex。加上去年底发布的 GPT-5.2 和 Gemini 3 Pro，2026 年初的旗舰模型格局已经很清楚了。

每次大模型发布，厂商都会贴一张 benchmark 表：我们在 X 上得了多少分、在 Y 上赢了谁。Opus 4.6 的发布也不例外——Terminal-Bench 第一、Humanity's Last Exam 第一、GDPval-AA

很多 LLM 应用“能用”和“好用”之间，差的不是模型，而是工程指标：你到底在保证什么？是总耗时？首字时间（TTFT）？还是在高峰期的可用性？

很多 LLM 应用“能用”和“好用”之间，差的不是模型，而是工程指标：你到底在保证什么？是总耗时？首字时间（TTFT）？还是在高峰期的可用性？

这是一个很小的改动，小到官方只用了一句话描述：

如果你用 Claude Code 配合 Google Vertex AI，可能遇到过这个错误：

Opus 4.6 把最大输出 token 从 64K 提到了 128K。翻了一倍。

2025 年底，一个电商平台的 AI 客服被用户诱导说出了"我们的产品质量确实有问题，建议你去消协投诉"。截图传到社交媒体上，公关团队花了一周善后。

Claude Code 在 Opus 4.6 发布的同一天推出了 Agent Teams 功能。简单说：你可以在 Claude Code 里同时起多个 Agent，让它们并行工作。

上个月底对账，运营跑来问我：这个月大模型 API 花了 12000 美元，比上个月多了 40%，是哪个功能多花了钱？

做过 Agent 的人都碰过这个问题：跑着跑着，上下文满了。

Anthropic 说 Opus 4.6 是"近似直接替换"。大部分情况下确实是——换个 model ID 就能跑。但有几个改动，如果你不知道，上线就会炸。