企业大模型选型评分卡与 RFP 清单:能力/工程化/成本/合规四象限

选型失败通常不是“模型不够强”,而是:需求没有被结构化、证据不可追溯、POC 不可复现、上线后不可治理。

本文给你一套可以直接复用的评分卡与 RFP 清单,并把风险治理对齐到 NIST 的框架:

  • AI RMF 主页:https://www.nist.gov/itl/ai-risk-management-framework
  • Generative AI Profile(NIST AI 600-1):https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence

评分卡结构(四象限)

建议把“硬门槛”与“可打分项”分开:

  • 硬门槛(Fail Fast):任一不满足直接淘汰(例如:不支持所需驻留、无法签 DPA、无法提供审计日志)
  • 可打分项(0-5 分):满足越多、越稳定、越可控,分越高

评分尺度(0-5)

  • 0:不支持 / 明确不提供
  • 1:能做但不稳定 / 需要大量定制 / 风险高
  • 3:可用(默认可用、文档清晰、可观测、可复现)
  • 5:生产级(明确 SLA、完善治理、稳定版本与弃用机制、支持规模化与降级)

权重建议(按业务类型调整)

  • Agent/自动化业务:能力 35%,工程化 30%,合规 20%,成本 15%
  • 客服/检索增强(RAG):能力 30%,工程化 25%,合规 25%,成本 20%
  • 内部效率工具(低风险):能力 30%,工程化 20%,合规 15%,成本 35%

象限 A:能力(Capability)

打分项(建议每项 0-5 分):

  • 推理与指令遵循:复杂约束下是否稳定、是否容易“跑偏”
  • 代码能力:能否通过你们的真实仓库任务(不要只看公开榜单)
  • 长上下文:真实长文档/RAG 场景下的召回与一致性
  • 多模态:你是否真的需要(以及是否“可控计费”)
  • 工具调用/结构化输出:JSON/schema 稳定性、错误恢复能力、并发下稳定性
  • RAG 友好性:引用/来源标注、拒答策略、低置信度降级

RFP 问题(对外):

  • 你们支持的模型版本策略是什么?Latest/Preview/日期版本如何选?弃用提前期多久?
  • 是否支持结构化输出(schema / JSON mode)?失败时推荐的恢复策略是什么?
  • 工具调用是否支持:并行工具、工具超时、工具失败重试、工具返回大对象?

象限 B:工程化(Engineering)

打分项:

  • 吞吐与限流:RPM/TPM/QPS/并发的默认值与扩容机制
  • 缓存与批量:是否支持缓存(cache hit)/batch,命中与存储计费是否可控
  • 稳定性:是否提供 SLA、状态页、故障通报机制
  • 可观测性:请求级日志、usage 明细、失败原因、trace/span(或可在你侧完整落盘)
  • 生态与 SDK:语言 SDK、OpenAI 兼容层、工具链、示例与最佳实践

RFP 问题:

  • 限流是什么口径(组织/项目/Key/Region)?突发流量怎么处理?是否有排队/突增配额?
  • 是否支持批量推理?批量任务的最大规模、排队策略、失败重试与幂等建议?
  • 是否提供审计日志与导出能力?字段粒度到什么程度(时间、调用者、模型、tokens、工具调用)?

象限 C:成本(Cost / TCO)

打分项:

  • 单价结构:输入/输出分价、长上下文分段计价
  • 隐形成本:工具按次收费、联网/插件收费、缓存存储收费、托管溢价
  • 可控性:预算上限、速率上限、配额隔离(团队/项目/环境)
  • 性价比:以你们真实任务的“成功率/成本”衡量,而不是单看“每百万 tokens 单价”

RFP 问题:

  • 请提供“价目表 + 计费示例”,覆盖:长上下文、缓存命中、缓存存储、批量推理、工具按次收费。
  • 是否支持预算/配额治理(按项目/Key/环境)?是否支持硬停机?

象限 D:合规与数据(Compliance / Data)

打分项:

  • 训练与保留:是否用客户数据训练、默认保留多久、是否支持零保留(ZDR)
  • 驻留与跨境:可选区域、数据存储位置与跨境条款
  • 安全与访问控制:SSO/RBAC、密钥管理、专有网络/VPC、JIT 权限
  • 合规材料:SOC2/ISO/审计报告获取方式、DPA/数据处理条款

RFP 问题(建议必须“给证据”):

  • 默认是否会用 prompts/outputs 训练?是否可选择退出?在哪里配置?对历史数据是否追溯?
  • 默认日志保留多久?是否支持 0 保留?审批流程与限制是什么?
  • 数据驻留支持哪些区域?端点与数据存储是否一致?是否会做跨境传输?
  • 是否支持私有化/专有部署(VPC/专属集群/本地)?厂商在该形态下是否“不可见”数据?

红线门禁(上线前必须满足)

建议至少包含:

  • 可追溯:请求级日志 + 关键字段(模型/版本/输入输出 tokens/失败原因)
  • 可回滚:明确的主模型/备模型/降级策略(见后续“多模型路由”一篇)
  • 可控成本:预算上限 + 限流 + 大请求保护(防止成本 DoS)
  • 数据合规:DPA/保留/驻留/审计确认完毕

可复用工件(模板)

评分卡 JSON(你可以直接放到内部系统)

{
  "model": "vendor/model",
  "version": "latest-or-dated",
  "scores": {
    "capability": {
      "reasoning": 0,
      "coding": 0,
      "long_context": 0,
      "multimodal": 0,
      "tool_calling": 0,
      "rag_friendliness": 0
    },
    "engineering": {
      "rate_limit": 0,
      "batch_and_cache": 0,
      "reliability_sla": 0,
      "observability": 0,
      "sdk_ecosystem": 0
    },
    "cost": {
      "unit_price": 0,
      "hidden_costs": 0,
      "cost_controls": 0,
      "value_for_money": 0
    },
    "compliance": {
      "training_and_retention": 0,
      "residency": 0,
      "security_controls": 0,
      "compliance_artifacts": 0
    }
  },
  "notes": []
}

RFP 问题清单(Markdown,可直接复制到采购邮件)

## Vendor / Model
- Model list, version policy, deprecation policy:
- Context window, max output:
- Pricing (input/output, long context tiers, batch, cache hit/storage, tools per-use):
- Rate limits (RPM/TPM/QPS/concurrency) and quota expansion:
- Data usage for training (default, opt-out), retention (default, ZDR), audit logs:
- Data residency options and cross-border transfer:
- Deployment options (public API, VPC/private, on-prem, cloud marketplaces):
- SLA/status page/incident comms:
← 返回博客列表