博客

探索 AI 技术的前沿动态与深度洞察

2026 年 2 月 5 日:AI 编程的"分叉时刻"

今天早上起来刷推特,我人都傻了。

2026-02-06模型能力对比评测
神仙打架:今天,GPT-5.3-Codex 与 Claude Opus 4.6 同时发布,谁才是程序员的最终归宿?

今天,2026 年 2 月 5 日,大概会被载入 AI 编程史册。

2026-02-06模型能力对比评测
这里的 Claude Opus 4.6,真的只适合有钱且有病的人(非贬义)

说实话,看到 Opus 4.6 定价的时候,我第一反应是 Anthropic 的产品经理脑子进水了。

2026-02-06模型能力对比评测
Claude Opus 4.6 vs GPT-5.2 vs Gemini 3 Pro:三大旗舰模型横评,谁值得你的钱

2 月 5 日 Anthropic 发了 Opus 4.6,同一天 OpenAI 放出了 GPT-5.3-Codex。加上去年底发布的 GPT-5.2 和 Gemini 3 Pro,2026 年初的旗舰模型格局已经很清楚了。

2026-02-06模型能力对比评测
Opus 4.6 的 Benchmark 该怎么看:方法学偏差与你自己的评估

每次大模型发布,厂商都会贴一张 benchmark 表:我们在 X 上得了多少分、在 Y 上赢了谁。Opus 4.6 的发布也不例外——Terminal-Bench 第一、Humanity's Last Exam 第一、GDPval-AA

2026-02-06模型能力对比评测
给大模型服务立规矩:SLO/错误预算/TTFT 一次讲清

很多 LLM 应用“能用”和“好用”之间,差的不是模型,而是工程指标:你到底在保证什么?是总耗时?首字时间(TTFT)?还是在高峰期的可用性?

2026-02-06企业AI应用实践
给大模型服务立规矩:SLO/错误预算/TTFT 一次讲清

很多 LLM 应用“能用”和“好用”之间,差的不是模型,而是工程指标:你到底在保证什么?是总耗时?首字时间(TTFT)?还是在高峰期的可用性?

2026-02-06企业AI应用实践
Opus 4.6 工具调用的 JSON 转义变了:字符串解析翻车实录

这是一个很小的改动,小到官方只用了一句话描述:

2026-02-06企业AI应用实践
跨平台模型别名坑:opus 在 Vertex 和直连 API 指向不同版本

如果你用 Claude Code 配合 Google Vertex AI,可能遇到过这个错误:

2026-02-06企业AI应用实践
128K 输出实战:不上 streaming 就等着 HTTP 超时

Opus 4.6 把最大输出 token 从 64K 提到了 128K。翻了一倍。

2026-02-06企业AI应用实践
LLM 网关安全:Guardrails 不是可选项

2025 年底,一个电商平台的 AI 客服被用户诱导说出了"我们的产品质量确实有问题,建议你去消协投诉"。截图传到社交媒体上,公关团队花了一周善后。

2026-02-06企业AI应用实践
Claude Code Agent Teams:多 Agent 并行干活,以及怎么不被账单吓到

Claude Code 在 Opus 4.6 发布的同一天推出了 Agent Teams 功能。简单说:你可以在 Claude Code 里同时起多个 Agent,让它们并行工作。

2026-02-06企业AI应用实践
LLM 可观测性:用 OpenTelemetry 给每笔 API 调用算账

上个月底对账,运营跑来问我:这个月大模型 API 花了 12000 美元,比上个月多了 40%,是哪个功能多花了钱?

2026-02-06企业AI应用实践
Compaction API 实战:让你的 Agent 不再撞上下文墙

做过 Agent 的人都碰过这个问题:跑着跑着,上下文满了。

2026-02-06企业AI应用实践
从 Opus 4.5 迁移到 4.6:这些 Breaking Change 不处理会直接 400

Anthropic 说 Opus 4.6 是"近似直接替换"。大部分情况下确实是——换个 model ID 就能跑。但有几个改动,如果你不知道,上线就会炸。

2026-02-06企业AI应用实践
上一页17879808182103下一页