博客

探索 AI 技术的前沿动态与深度洞察

2026 年最热的 AI 话题不是"模型有多聪明"，而是"模型能不能自己干活"。智能体（Agent）——让模型自主决策、调用工具、完成多步骤任务——是各家厂商押注最重的方向。

"原生多模态"这个说法 Google 用了很久，但我一直觉得它有点抽象。Gemini 3.1 Pro 支持图片、音频、视频、PDF 同时输入，听起来很全面。不过具体的上限和限制藏在 Vertex AI 的技术文档里，把它们挖出来才能知道实际

Google 反复说 Gemini 3.1 Pro 是"原生多模态"模型——图片、音频、视频、PDF 都能一起处理。这个说法从 Gemini 1.0 就开始用了，到 Gemini 3.1 Pro 已经是第四代了。

Gemini 3.1 Pro 支持 100 万 token 的输入上下文。官方宣传说解决了"迷失在中间"（Lost in the Middle）问题，100 万 token 下检索准确率接近 100%。听起来很厉害，不过我把 Model C

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口，是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题，检索准确率接近 100%。

Gemini 3.1 Pro 支持 100 万 token 的上下文窗口，是目前公开模型中最大的。Google 在宣传里说 Gemini 3.1 Pro 解决了"迷失在中间"问题，检索准确率接近 100%。

2 月 19 日 Google 发布 Gemini 3.1 Pro，公告里最抢眼的数字是 ARC-AGI-2 拿了 77.1%，上一代 Gemini 3 Pro 只有 31.1%，翻了一倍多。不少自媒体当天就写出了"Gemini 3.1 P

2月19日，Google 发布了 Gemini 3.1 Pro，公告里的数字很好看：ARC-AGI-2 得了 77.1%，比上一代 Gemini 3 Pro 的 31.1% 翻了一倍多。很多报道直接说"完胜 GPT-5.2 和 Claude

如果你在用 Vercel AI SDK 接 Gemini，并且想同时用结构化输出（structured output）和工具调用（function calling / code execution），有一个坑值得提前说清楚——不是所有 Ge

如果你在用 Vercel AI SDK（@ai-sdk/google）接 Gemini 3.1 Pro 或其他 Gemini 3 系列模型，想同时用结构化输出（structured output）和工具调用（function calling

如果你在用 Vercel AI SDK（@ai-sdk/google）接 Gemini 3.1 Pro 或其他 Gemini 3 系列模型，想同时用结构化输出（structured output）和工具调用（function calling

AI 圈最近打起来了，而且打得特别接地气——打价格战。

2 月 19 号 Google 发了 Gemini 3.1 Pro。宣传语照例是"most advanced model for complex tasks"，我关心的是三件事：API 怎么接、thinking_level 怎么配、一个月下