合规不是“有没有证书”,而是:你的数据在全链路里被谁处理、存在哪里、保留多久、谁能看、能否追溯。
本文给你一个可以直接落到采购/合同与上线门禁的清单,并引用 NIST 的风险管理框架作为组织语言:
- AI RMF:
https://www.nist.gov/itl/ai-risk-management-framework - Generative AI Profile(NIST AI 600-1):
https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
1) 训练与数据使用(Training / Data Use)
必须明确:
- 默认是否会用 prompts/outputs 做训练或改进
- 是否可 opt-out(以及在哪里配置)
- opt-out 是否只对“之后的数据”生效,历史数据如何处理
合同建议写法(示例,需法务审阅):
Provider shall not use Customer Content (inputs/outputs) to train or improve models,
unless Customer explicitly opts in in writing. Opt-out must be available by default.
2) 数据保留(Retention)与零保留(ZDR)
要把“保留”拆成两件事:
- 业务日志:用于计费、排障、反滥用
- 训练数据池:用于训练/评估(如果你允许)
必须问清:
- 默认保留多久(例如 30 天)
- 是否支持零保留(Zero Data Retention, ZDR)
- ZDR 的前提条件与限制(例如:滥用检测能力受限)
3) 数据驻留与跨境(Residency / Cross-border)
要明确“端点在哪里”与“数据存在哪里”是否一致:
- 推理端点所在区域
- 日志与存储所在区域
- 供应商/分包商是否会跨境访问
4) 审计与访问控制(Audit / Access Control)
至少要能做到:
- 谁(主体/子账号)在何时调用了哪个模型
- 用量(tokens、工具调用次数、费用)
- 关键失败原因(限流/超时/拒答/工具失败)
建议在你侧也落一份“不可篡改”的审计日志(例如对象存储 + WORM)。
5) 部署形态与“可见性”
对供应商最关键的问题是:在不同部署形态下,供应商是否“可见”你的输入输出?
- 直连 SaaS:通常供应商可见(除非 ZDR)
- 第三方云/私有部署:有些承诺“供应商不可见”
- 自托管:你完全可控,但需要你自己承担治理责任
6) 上线门禁(建议最小集合)
- DPA/合同条款已确认
- 训练/保留/驻留已确认并可审计
- 访问控制:最小权限 + key 轮换 + 环境隔离
- 成本与滥用:预算上限 + 速率上限 + 大请求保护