企业大模型数据与合规清单：训练、保留、驻留、审计与合同条款

合规不是“有没有证书”，而是：你的数据在全链路里被谁处理、存在哪里、保留多久、谁能看、能否追溯。

本文给你一个可以直接落到采购/合同与上线门禁的清单，并引用 NIST 的风险管理框架作为组织语言：

AI RMF：https://www.nist.gov/itl/ai-risk-management-framework
Generative AI Profile（NIST AI 600-1）：https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence

1) 训练与数据使用（Training / Data Use）

必须明确：

默认是否会用 prompts/outputs 做训练或改进
是否可 opt-out（以及在哪里配置）
opt-out 是否只对“之后的数据”生效，历史数据如何处理

合同建议写法（示例，需法务审阅）：

Provider shall not use Customer Content (inputs/outputs) to train or improve models,
unless Customer explicitly opts in in writing. Opt-out must be available by default.

2) 数据保留（Retention）与零保留（ZDR）

要把“保留”拆成两件事：

业务日志：用于计费、排障、反滥用
训练数据池：用于训练/评估（如果你允许）

必须问清：

默认保留多久（例如 30 天）
是否支持零保留（Zero Data Retention, ZDR）
ZDR 的前提条件与限制（例如：滥用检测能力受限）

3) 数据驻留与跨境（Residency / Cross-border）

要明确“端点在哪里”与“数据存在哪里”是否一致：

推理端点所在区域
日志与存储所在区域
供应商/分包商是否会跨境访问

4) 审计与访问控制（Audit / Access Control）

至少要能做到：

谁（主体/子账号）在何时调用了哪个模型
用量（tokens、工具调用次数、费用）
关键失败原因（限流/超时/拒答/工具失败）

建议在你侧也落一份“不可篡改”的审计日志（例如对象存储 + WORM）。

5) 部署形态与“可见性”

对供应商最关键的问题是：在不同部署形态下，供应商是否“可见”你的输入输出？

直连 SaaS：通常供应商可见（除非 ZDR）
第三方云/私有部署：有些承诺“供应商不可见”
自托管：你完全可控，但需要你自己承担治理责任

6) 上线门禁（建议最小集合）

DPA/合同条款已确认
训练/保留/驻留已确认并可审计
访问控制：最小权限 + key 轮换 + 环境隔离
成本与滥用：预算上限 + 速率上限 + 大请求保护