博客

探索 AI 技术的前沿动态与深度洞察

Agent 真开始落地之后，模型选型会比普通对话系统复杂很多。

Agent 进入正式业务之后，模型选型会比普通对话系统更快走到“结构问题”。

企业一旦开始正式用大模型，缓存几乎迟早都会被提上来。因为只要请求量起来，重复发送的上下文和背景内容就会慢慢变成一笔很实在的成本。

我一开始看大模型缓存，也很容易把注意力放在 prompt 本身。

缓存这件事，听起来很像一个天然正确的动作。既然模型调用贵，那把 prompt 缓起来，不就应该能把钱省下来吗？

Prompt 缓存怎么设计？很多团队第一反应都是把整段 prompt 缓起来，但真跑到业务里，命中率往往没有想象中高。

很多团队一开始做缓存，直觉都很像：既然大模型调用贵，那就把 prompt 缓起来，能省一点是一点。

过去大家聊大模型缓存，更多会把它当成一个优化技巧。能省一点 token，能少发一点内容，看起来就已经有价值了。

很多团队一提缓存，第一反应还是 Prompt 缓存。这个方向没问题，但如果系统已经进入真实业务，直接围着整段 prompt 打转，往往不够稳定。

一开始做 Prompt 缓存时，很多人的直觉都很像：哪一段最像“用户输入”，就优先缓存哪一段。

很多团队一提到长上下文，第一反应都是模型能不能扛住、窗口够不够大、一次能塞多少内容。

很多团队一说缓存，第一反应就是 prompt。可系统真跑起来之后，很多账单问题并不是出在用户那句话，而是出在前面那一大段背景。

很多团队开始做 Prompt 缓存时，第一反应都是把整段输入缓存起来。这当然能做，但如果系统已经进入正式业务，直接缓存整段 prompt 往往不会是效果最稳的方案。

很多系统一开始做 Prompt 缓存，出发点都很直接：希望少发一些重复内容，把调用成本压下来。

ChatGPT Images 2.0（GPT Image-2）发布不到 24 小时，我的信息流已经被各种生成的图片刷屏了。