企业大模型选型评分卡与 RFP 清单：能力/工程化/成本/合规四象限

选型失败通常不是“模型不够强”，而是：需求没有被结构化、证据不可追溯、POC 不可复现、上线后不可治理。

本文给你一套可以直接复用的评分卡与 RFP 清单，并把风险治理对齐到 NIST 的框架：

AI RMF 主页：https://www.nist.gov/itl/ai-risk-management-framework
Generative AI Profile（NIST AI 600-1）：https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence

评分卡结构（四象限）

建议把“硬门槛”与“可打分项”分开：

硬门槛（Fail Fast）：任一不满足直接淘汰（例如：不支持所需驻留、无法签 DPA、无法提供审计日志）
可打分项（0-5 分）：满足越多、越稳定、越可控，分越高

评分尺度（0-5）

0：不支持 / 明确不提供
1：能做但不稳定 / 需要大量定制 / 风险高
3：可用（默认可用、文档清晰、可观测、可复现）
5：生产级（明确 SLA、完善治理、稳定版本与弃用机制、支持规模化与降级）

权重建议（按业务类型调整）

Agent/自动化业务：能力 35%，工程化 30%，合规 20%，成本 15%
客服/检索增强（RAG）：能力 30%，工程化 25%，合规 25%，成本 20%
内部效率工具（低风险）：能力 30%，工程化 20%，合规 15%，成本 35%

象限 A：能力（Capability）

打分项（建议每项 0-5 分）：

推理与指令遵循：复杂约束下是否稳定、是否容易“跑偏”
代码能力：能否通过你们的真实仓库任务（不要只看公开榜单）
长上下文：真实长文档/RAG 场景下的召回与一致性
多模态：你是否真的需要（以及是否“可控计费”）
工具调用/结构化输出：JSON/schema 稳定性、错误恢复能力、并发下稳定性
RAG 友好性：引用/来源标注、拒答策略、低置信度降级

RFP 问题（对外）：

你们支持的模型版本策略是什么？Latest/Preview/日期版本如何选？弃用提前期多久？
是否支持结构化输出（schema / JSON mode）？失败时推荐的恢复策略是什么？
工具调用是否支持：并行工具、工具超时、工具失败重试、工具返回大对象？

象限 B：工程化（Engineering）

打分项：

吞吐与限流：RPM/TPM/QPS/并发的默认值与扩容机制
缓存与批量：是否支持缓存（cache hit）/batch，命中与存储计费是否可控
稳定性：是否提供 SLA、状态页、故障通报机制
可观测性：请求级日志、usage 明细、失败原因、trace/span（或可在你侧完整落盘）
生态与 SDK：语言 SDK、OpenAI 兼容层、工具链、示例与最佳实践

RFP 问题：

限流是什么口径（组织/项目/Key/Region）？突发流量怎么处理？是否有排队/突增配额？
是否支持批量推理？批量任务的最大规模、排队策略、失败重试与幂等建议？
是否提供审计日志与导出能力？字段粒度到什么程度（时间、调用者、模型、tokens、工具调用）？

象限 C：成本（Cost / TCO）

打分项：

单价结构：输入/输出分价、长上下文分段计价
隐形成本：工具按次收费、联网/插件收费、缓存存储收费、托管溢价
可控性：预算上限、速率上限、配额隔离（团队/项目/环境）
性价比：以你们真实任务的“成功率/成本”衡量，而不是单看“每百万 tokens 单价”

RFP 问题：

请提供“价目表 + 计费示例”，覆盖：长上下文、缓存命中、缓存存储、批量推理、工具按次收费。
是否支持预算/配额治理（按项目/Key/环境）？是否支持硬停机？

象限 D：合规与数据（Compliance / Data）

打分项：

训练与保留：是否用客户数据训练、默认保留多久、是否支持零保留（ZDR）
驻留与跨境：可选区域、数据存储位置与跨境条款
安全与访问控制：SSO/RBAC、密钥管理、专有网络/VPC、JIT 权限
合规材料：SOC2/ISO/审计报告获取方式、DPA/数据处理条款

RFP 问题（建议必须“给证据”）：

默认是否会用 prompts/outputs 训练？是否可选择退出？在哪里配置？对历史数据是否追溯？
默认日志保留多久？是否支持 0 保留？审批流程与限制是什么？
数据驻留支持哪些区域？端点与数据存储是否一致？是否会做跨境传输？
是否支持私有化/专有部署（VPC/专属集群/本地）？厂商在该形态下是否“不可见”数据？

红线门禁（上线前必须满足）

建议至少包含：

可追溯：请求级日志 + 关键字段（模型/版本/输入输出 tokens/失败原因）
可回滚：明确的主模型/备模型/降级策略（见后续“多模型路由”一篇）
可控成本：预算上限 + 限流 + 大请求保护（防止成本 DoS）
数据合规：DPA/保留/驻留/审计确认完毕

可复用工件（模板）

评分卡 JSON（你可以直接放到内部系统）

{
  "model": "vendor/model",
  "version": "latest-or-dated",
  "scores": {
    "capability": {
      "reasoning": 0,
      "coding": 0,
      "long_context": 0,
      "multimodal": 0,
      "tool_calling": 0,
      "rag_friendliness": 0
    },
    "engineering": {
      "rate_limit": 0,
      "batch_and_cache": 0,
      "reliability_sla": 0,
      "observability": 0,
      "sdk_ecosystem": 0
    },
    "cost": {
      "unit_price": 0,
      "hidden_costs": 0,
      "cost_controls": 0,
      "value_for_money": 0
    },
    "compliance": {
      "training_and_retention": 0,
      "residency": 0,
      "security_controls": 0,
      "compliance_artifacts": 0
    }
  },
  "notes": []
}

RFP 问题清单（Markdown，可直接复制到采购邮件）

## Vendor / Model
- Model list, version policy, deprecation policy:
- Context window, max output:
- Pricing (input/output, long context tiers, batch, cache hit/storage, tools per-use):
- Rate limits (RPM/TPM/QPS/concurrency) and quota expansion:
- Data usage for training (default, opt-out), retention (default, ZDR), audit logs:
- Data residency options and cross-border transfer:
- Deployment options (public API, VPC/private, on-prem, cloud marketplaces):
- SLA/status page/incident comms: