企业上线的真实目标是:在成本、延迟、合规与可用性之间做动态平衡。最稳的做法是:主模型 + 备模型 + 路由与降级。
路由策略的基本盘
- 按任务类型路由:编码/检索/总结/多模态分别选不同模型
- 按风险分级路由:高风险(外发/下单/写库)用更稳的模型并强制人审
- 按成本预算路由:预算紧张时自动降级到更便宜/更短上下文配置
- 按可用性路由:超时/限流/故障时自动切备
降级(Degrade)应当“可解释”
降级不是随便换模型,而是明确告诉系统与用户:
- 为什么降级(限流/成本/合规/不可用)
- 降级后能力变化(例如:不再多模态、不再联网、不再长上下文)
建议统一一个“降级事件”结构:
{
"event": "model_degraded",
"primary": "vendor/modelA",
"fallback": "vendor/modelB",
"reason": "rate_limited",
"timestamp": "2026-01-01T00:00:00Z"
}
回滚与退出(Exit strategy)
把“退出”当作一等公民写进方案:
- 数据可迁移(提示模板、路由规则、评测集、日志格式)
- 版本可复现(固定模型版本/提示版本/工具版本)
- 合同与弃用机制(提前期、数据删除证明、审计导出)
你需要的最小观测指标
- 任务成功率(按任务定义)
- 延迟 P95/P99(按场景分桶)
- 成本均值与长尾(按会话/按任务)
- 失败类型分布(限流/超时/schema/工具失败/拒答)
- 路由与降级次数(是否异常飙升)