把“选型讨论”落到可核验的官方文档:模型页/定价/数据与隐私/部署渠道/限流与缓存/区域与驻留。
把选型从“口水战”变成可打分、可追责的决策:评分口径、权重建议、RFP 问题清单、红线门禁(引用 NIST AI RMF)。
POC 不是“试用一下感觉不错”,而是可复现的评测:样本集、硬校验、rubric、A/B、压测与故障注入。
把总成本拆成可算的账:输入/输出、长上下文分段、缓存命中与存储、批量推理折扣、工具按次收费、托管溢价。
选型不只选模型,还要选部署形态:安全与合规、网络与驻留、SLA、成本与工程复杂度的权衡。
把“合规”变成可落实的条款与门禁:是否训练、保留多久、是否支持零保留、区域驻留、审计日志与访问控制。
上线不是“选一个最强模型”,而是“选主模型 + 备模型 + 路由与降级策略”,并且可回滚、可退出。
以 GPT-5.2 为例,按同一套评分卡梳理:适用/不适用场景、成本结构、数据政策与推荐默认配置。
按统一口径梳理 Claude:适用/不适用场景、定价入口、工具调用与工程化注意事项。
按统一口径整理 Gemini:定价、使用政策、企业数据治理入口,以及选型时要区分的接入渠道。
按统一口径整理 Grok:官方 models 文档入口,以及企业选型必须逐条核对的定价/数据/区域/限流项。
按统一口径整理 Llama 4:模型卡/提示格式入口,以及企业自托管时必须补齐的工程与治理能力。
按统一口径整理 Mistral:官方 models 入口、选型核对点,以及在企业里常见的接入与治理问题。
按统一口径整理 DeepSeek R1:适用/不适用场景、推理模式差异、成本与工程化注意事项,以及接入渠道差异的核对清单。
按统一口径整理 Qwen:官方定价与区域模式、分段计价、批量/缓存折扣,以及企业落地时最容易忽略的驻留差异。
按统一口径整理 Kimi:官方定价入口与隐私政策条款中对“用户内容用于改进”的描述,以及企业落地时需要的门禁。
按统一口径整理 Cohere:面向企业的训练/保留/ZDR 承诺、部署形态差异,以及在 RAG 场景下的落地核对点。