企业大模型数据与合规清单:训练、保留、驻留、审计与合同条款

合规不是“有没有证书”,而是:你的数据在全链路里被谁处理、存在哪里、保留多久、谁能看、能否追溯

本文给你一个可以直接落到采购/合同与上线门禁的清单,并引用 NIST 的风险管理框架作为组织语言:

  • AI RMF:https://www.nist.gov/itl/ai-risk-management-framework
  • Generative AI Profile(NIST AI 600-1):https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence

1) 训练与数据使用(Training / Data Use)

必须明确:

  • 默认是否会用 prompts/outputs 做训练或改进
  • 是否可 opt-out(以及在哪里配置)
  • opt-out 是否只对“之后的数据”生效,历史数据如何处理

合同建议写法(示例,需法务审阅):

Provider shall not use Customer Content (inputs/outputs) to train or improve models,
unless Customer explicitly opts in in writing. Opt-out must be available by default.

2) 数据保留(Retention)与零保留(ZDR)

要把“保留”拆成两件事:

  • 业务日志:用于计费、排障、反滥用
  • 训练数据池:用于训练/评估(如果你允许)

必须问清:

  • 默认保留多久(例如 30 天)
  • 是否支持零保留(Zero Data Retention, ZDR)
  • ZDR 的前提条件与限制(例如:滥用检测能力受限)

3) 数据驻留与跨境(Residency / Cross-border)

要明确“端点在哪里”与“数据存在哪里”是否一致:

  • 推理端点所在区域
  • 日志与存储所在区域
  • 供应商/分包商是否会跨境访问

4) 审计与访问控制(Audit / Access Control)

至少要能做到:

  • 谁(主体/子账号)在何时调用了哪个模型
  • 用量(tokens、工具调用次数、费用)
  • 关键失败原因(限流/超时/拒答/工具失败)

建议在你侧也落一份“不可篡改”的审计日志(例如对象存储 + WORM)。

5) 部署形态与“可见性”

对供应商最关键的问题是:在不同部署形态下,供应商是否“可见”你的输入输出?

  • 直连 SaaS:通常供应商可见(除非 ZDR)
  • 第三方云/私有部署:有些承诺“供应商不可见”
  • 自托管:你完全可控,但需要你自己承担治理责任

6) 上线门禁(建议最小集合)

  • DPA/合同条款已确认
  • 训练/保留/驻留已确认并可审计
  • 访问控制:最小权限 + key 轮换 + 环境隔离
  • 成本与滥用:预算上限 + 速率上限 + 大请求保护
← 返回博客列表