选型失败通常不是“模型不够强”,而是:需求没有被结构化、证据不可追溯、POC 不可复现、上线后不可治理。
本文给你一套可以直接复用的评分卡与 RFP 清单,并把风险治理对齐到 NIST 的框架:
- AI RMF 主页:
https://www.nist.gov/itl/ai-risk-management-framework - Generative AI Profile(NIST AI 600-1):
https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
评分卡结构(四象限)
建议把“硬门槛”与“可打分项”分开:
- 硬门槛(Fail Fast):任一不满足直接淘汰(例如:不支持所需驻留、无法签 DPA、无法提供审计日志)
- 可打分项(0-5 分):满足越多、越稳定、越可控,分越高
评分尺度(0-5)
- 0:不支持 / 明确不提供
- 1:能做但不稳定 / 需要大量定制 / 风险高
- 3:可用(默认可用、文档清晰、可观测、可复现)
- 5:生产级(明确 SLA、完善治理、稳定版本与弃用机制、支持规模化与降级)
权重建议(按业务类型调整)
- Agent/自动化业务:能力 35%,工程化 30%,合规 20%,成本 15%
- 客服/检索增强(RAG):能力 30%,工程化 25%,合规 25%,成本 20%
- 内部效率工具(低风险):能力 30%,工程化 20%,合规 15%,成本 35%
象限 A:能力(Capability)
打分项(建议每项 0-5 分):
- 推理与指令遵循:复杂约束下是否稳定、是否容易“跑偏”
- 代码能力:能否通过你们的真实仓库任务(不要只看公开榜单)
- 长上下文:真实长文档/RAG 场景下的召回与一致性
- 多模态:你是否真的需要(以及是否“可控计费”)
- 工具调用/结构化输出:JSON/schema 稳定性、错误恢复能力、并发下稳定性
- RAG 友好性:引用/来源标注、拒答策略、低置信度降级
RFP 问题(对外):
- 你们支持的模型版本策略是什么?Latest/Preview/日期版本如何选?弃用提前期多久?
- 是否支持结构化输出(schema / JSON mode)?失败时推荐的恢复策略是什么?
- 工具调用是否支持:并行工具、工具超时、工具失败重试、工具返回大对象?
象限 B:工程化(Engineering)
打分项:
- 吞吐与限流:RPM/TPM/QPS/并发的默认值与扩容机制
- 缓存与批量:是否支持缓存(cache hit)/batch,命中与存储计费是否可控
- 稳定性:是否提供 SLA、状态页、故障通报机制
- 可观测性:请求级日志、usage 明细、失败原因、trace/span(或可在你侧完整落盘)
- 生态与 SDK:语言 SDK、OpenAI 兼容层、工具链、示例与最佳实践
RFP 问题:
- 限流是什么口径(组织/项目/Key/Region)?突发流量怎么处理?是否有排队/突增配额?
- 是否支持批量推理?批量任务的最大规模、排队策略、失败重试与幂等建议?
- 是否提供审计日志与导出能力?字段粒度到什么程度(时间、调用者、模型、tokens、工具调用)?
象限 C:成本(Cost / TCO)
打分项:
- 单价结构:输入/输出分价、长上下文分段计价
- 隐形成本:工具按次收费、联网/插件收费、缓存存储收费、托管溢价
- 可控性:预算上限、速率上限、配额隔离(团队/项目/环境)
- 性价比:以你们真实任务的“成功率/成本”衡量,而不是单看“每百万 tokens 单价”
RFP 问题:
- 请提供“价目表 + 计费示例”,覆盖:长上下文、缓存命中、缓存存储、批量推理、工具按次收费。
- 是否支持预算/配额治理(按项目/Key/环境)?是否支持硬停机?
象限 D:合规与数据(Compliance / Data)
打分项:
- 训练与保留:是否用客户数据训练、默认保留多久、是否支持零保留(ZDR)
- 驻留与跨境:可选区域、数据存储位置与跨境条款
- 安全与访问控制:SSO/RBAC、密钥管理、专有网络/VPC、JIT 权限
- 合规材料:SOC2/ISO/审计报告获取方式、DPA/数据处理条款
RFP 问题(建议必须“给证据”):
- 默认是否会用 prompts/outputs 训练?是否可选择退出?在哪里配置?对历史数据是否追溯?
- 默认日志保留多久?是否支持 0 保留?审批流程与限制是什么?
- 数据驻留支持哪些区域?端点与数据存储是否一致?是否会做跨境传输?
- 是否支持私有化/专有部署(VPC/专属集群/本地)?厂商在该形态下是否“不可见”数据?
红线门禁(上线前必须满足)
建议至少包含:
- 可追溯:请求级日志 + 关键字段(模型/版本/输入输出 tokens/失败原因)
- 可回滚:明确的主模型/备模型/降级策略(见后续“多模型路由”一篇)
- 可控成本:预算上限 + 限流 + 大请求保护(防止成本 DoS)
- 数据合规:DPA/保留/驻留/审计确认完毕
可复用工件(模板)
评分卡 JSON(你可以直接放到内部系统)
{
"model": "vendor/model",
"version": "latest-or-dated",
"scores": {
"capability": {
"reasoning": 0,
"coding": 0,
"long_context": 0,
"multimodal": 0,
"tool_calling": 0,
"rag_friendliness": 0
},
"engineering": {
"rate_limit": 0,
"batch_and_cache": 0,
"reliability_sla": 0,
"observability": 0,
"sdk_ecosystem": 0
},
"cost": {
"unit_price": 0,
"hidden_costs": 0,
"cost_controls": 0,
"value_for_money": 0
},
"compliance": {
"training_and_retention": 0,
"residency": 0,
"security_controls": 0,
"compliance_artifacts": 0
}
},
"notes": []
}
RFP 问题清单(Markdown,可直接复制到采购邮件)
## Vendor / Model
- Model list, version policy, deprecation policy:
- Context window, max output:
- Pricing (input/output, long context tiers, batch, cache hit/storage, tools per-use):
- Rate limits (RPM/TPM/QPS/concurrency) and quota expansion:
- Data usage for training (default, opt-out), retention (default, ZDR), audit logs:
- Data residency options and cross-border transfer:
- Deployment options (public API, VPC/private, on-prem, cloud marketplaces):
- SLA/status page/incident comms: