博客
探索 AI 技术的前沿动态与深度洞察
Agent 真开始落地之后,模型选型会比普通对话系统复杂很多。
Agent 进入正式业务之后,模型选型会比普通对话系统更快走到“结构问题”。
企业一旦开始正式用大模型,缓存几乎迟早都会被提上来。因为只要请求量起来,重复发送的上下文和背景内容就会慢慢变成一笔很实在的成本。
我一开始看大模型缓存,也很容易把注意力放在 prompt 本身。
缓存这件事,听起来很像一个天然正确的动作。既然模型调用贵,那把 prompt 缓起来,不就应该能把钱省下来吗?
Prompt 缓存怎么设计?很多团队第一反应都是把整段 prompt 缓起来,但真跑到业务里,命中率往往没有想象中高。
很多团队一开始做缓存,直觉都很像:既然大模型调用贵,那就把 prompt 缓起来,能省一点是一点。
过去大家聊大模型缓存,更多会把它当成一个优化技巧。能省一点 token,能少发一点内容,看起来就已经有价值了。
很多团队一提缓存,第一反应还是 Prompt 缓存。这个方向没问题,但如果系统已经进入真实业务,直接围着整段 prompt 打转,往往不够稳定。
一开始做 Prompt 缓存时,很多人的直觉都很像:哪一段最像“用户输入”,就优先缓存哪一段。
很多团队一提到长上下文,第一反应都是模型能不能扛住、窗口够不够大、一次能塞多少内容。
很多团队一说缓存,第一反应就是 prompt。可系统真跑起来之后,很多账单问题并不是出在用户那句话,而是出在前面那一大段背景。
很多团队开始做 Prompt 缓存时,第一反应都是把整段输入缓存起来。这当然能做,但如果系统已经进入正式业务,直接缓存整段 prompt 往往不会是效果最稳的方案。
很多系统一开始做 Prompt 缓存,出发点都很直接:希望少发一些重复内容,把调用成本压下来。
ChatGPT Images 2.0(GPT Image-2)发布不到 24 小时,我的信息流已经被各种生成的图片刷屏了。