本文是一份“可引用、可核验”的资料包:只放官方文档/公告/产品页入口,并标注每家你需要核对的关键点。后续系列文章会以这份清单为“引用基线”。
使用方式
- 选型会议/POC 前:先把候选模型缩到 3-6 个,然后逐个过一遍本页“核对清单”
- POC 过程中:把你们测出来的真实数据(成功率、P95 延迟、成本)补到各模型的“记录项”里
- 采购/RFP 阶段:把“核对清单”转成 RFP 问题,要求供应商逐条回答并提供可追溯证据
统一核对清单(每家都要问)
- 模型与能力
- 支持的模型家族与稳定别名(Latest/Preview/日期版本)
- 最大上下文与最大输出
- 多模态能力(图/音/视频/文档)与计费方式
- 结构化输出/函数调用/工具调用/联网/代码执行等能力是否有额外限制
- 计费与成本
- 输入/输出单价(分层计价、长上下文加价)
- 缓存(cache hit/token storage)与批量推理(batch)折扣
- 限流(RPM/TPM/QPS/并发)与扩容的收费模式
- 数据与合规
- 是否使用客户数据训练(默认策略 + 可选项)
- 数据保留(默认保留多久,是否支持 0 保留/不落盘)
- 审计日志、访问控制、密钥管理
- 数据驻留/可选区域、跨境传输说明
- 工程化
- SLA/可用性承诺、故障沟通机制
- SDK/兼容性(OpenAI SDK 兼容等)、版本稳定性与弃用策略
闭源前沿(API 为主)
OpenAI(GPT-5.2)
- 模型页:
https://platform.openai.com/docs/models/gpt-5.2 - 定价:
https://platform.openai.com/docs/pricing - 数据使用/保留:
https://platform.openai.com/docs/guides/your-data - 企业数据说明:
https://openai.com/business-data/
记录项(POC 过程补充):
- 你使用的模型别名与日期版本
- 是否启用缓存/批量调用,命中率与节省比例
- 主要失败类型(格式不稳、引用不稳、工具调用错参、超时等)
Anthropic(Claude)
- 模型概览:
https://platform.claude.com/docs/en/about-claude/models/overview - 定价:
https://platform.claude.com/docs/en/about-claude/pricing - 高级工具化能力参考(工程文章):
https://www.anthropic.com/engineering/advanced-tool-use
记录项:
- 工具调用是否需要额外“工具使用预算”或其他限制
- 长上下文场景下的延迟尾部(P95/P99)
Google(Gemini API / Vertex)
- Gemini API 定价:
https://ai.google.dev/gemini-api/docs/pricing - Gemini API 使用政策:
https://ai.google.dev/gemini-api/docs/usage-policies - 企业数据治理(Cloud Gemini):
https://docs.cloud.google.com/gemini/docs/discover/data-governance
记录项:
- 你最终走的是 Gemini API 还是 Vertex AI(渠道差异会影响权限、计费与合规)
xAI(Grok)
- 模型文档入口:
https://docs.x.ai/docs/models
记录项:
- 你接入的具体产品形态与可用区域(官方入口为准)
云平台托管渠道(企业常用)
这些渠道的价值在于:统一的 IAM/审计/网络隔离/合同条款,但通常也会带来配额/区域/功能差异。
- AWS Bedrock(入口):
https://aws.amazon.com/bedrock/ - Azure OpenAI(入口):
https://azure.microsoft.com/en-us/products/ai-services/openai-service - Google Vertex AI(入口):
https://cloud.google.com/vertex-ai
记录项:
- 同一模型在“直连厂商 API”与“云托管渠道”的差异(上下文、工具、价格、配额、区域)
开放权重/可自托管(以及“可在平台上托管”的混合形态)
Meta Llama 4
- 模型卡与提示格式:
https://www.llama.com/docs/model-cards-and-prompt-formats/llama4/
记录项:
- 你是自托管(vLLM/TGI 等)还是托管(云/第三方)
- 量化/并行策略对质量与成本的影响
Mistral
- Models 入口:
https://mistral.ai/models
记录项:
- 如果走其 API/平台,需在合同里明确数据保留/训练使用条款(以官方条款为准)
DeepSeek
- 官方发布/公告入口(示例):
https://api-docs.deepseek.com/news/news250120
记录项:
- 推理/深度思考模式的计费差异
- 是否存在“平台托管”与“直连 API”差异
中文生态热门(平台化接入为主)
阿里云 Model Studio(百炼 / Qwen)
- Model invocation pricing(含区域/驻留与免费额度说明):
https://www.alibabacloud.com/help/en/model-studio/model-pricing - Models 列表:
https://www.alibabacloud.com/help/en/model-studio/models
核对要点:
- 区域模式(Global/International/Mainland China)对端点、数据存储位置的影响
- 是否支持 batch 与 context cache 折扣(文档明确两者不可叠加)
百度千帆(Qianfan / ERNIE)
- 模型服务计费(含 ERNIE/DeepSeek/Kimi 等在千帆上的价格明细):
https://cloud.baidu.com/doc/qianfan/s/wmh4sv6ya - 产品计费相关(计费模式、搜索增强等):
https://cloud.baidu.com/doc/qianfan/s/rmh4sv672
核对要点:
- 计费模式(按 token/量包/TPM-RPM 配额)的选择与对流控的影响
- 搜索增强(按次 + 增加的 search tokens)是否默认开启、如何关闭
腾讯混元(Tencent Cloud Hunyuan)
- 混元生文计费概述:
https://cloud.tencent.com/document/product/1729/97731
核对要点:
- 免费额度范围与有效期
- 后付费是否默认关闭(需要主动开启)
- 是否需要额外购买并发(文档有并发增购说明)
字节/火山引擎(豆包 Doubao / 火山方舟)
- 豆包大模型产品页(包含示例价格与缓存/批量推理价格点):
https://www.volcengine.com/product/doubao - 火山方舟模型价格(入口):
https://www.volcengine.com/docs/82379/1544106
核对要点:
- 在线推理/批量推理/上下文缓存的价格与限制是否与你的场景匹配
- 初始限流(TPM)与扩容方式
Moonshot(Kimi)
- Kimi OpenPlatform Pricing:
https://platform.moonshot.ai/docs/pricing/chat - Kimi OpenPlatform Privacy Policy:
https://platform.moonshot.ai/docs/agreement/userprivacy
核对要点:
- 隐私政策里对“用户内容用于改进/训练”的描述与企业可接受度
- 数据存储区域与跨境传输说明(以官方条款为准)
Z.AI(智谱 GLM)
- Z.AI 定价(含 cached input / storage / tool cost):
https://docs.z.ai/guides/overview/pricing
核对要点:
- cached input 与缓存存储的计费是否会影响你“长对话/长文档”场景的 TCO
- 内置工具(如 Web Search)是否按次收费
企业 RAG / 检索增强候选
Cohere(Command R / Command R+)
- Enterprise Data Commitments(训练开关、30 天保留、ZDR 等):
https://cohere.com/enterprise-data-commitments - Security(入口):
https://cohere.com/security
核对要点:
- 你是否能拿到 ZDR(零保留)与对应的使用限制
- 第三方云/私有部署时 Cohere 是否“不可见”输入输出(官方承诺为准)
风险提示(写进采购条款/上线门禁)
- 不要只看“单价”:缓存、批量、长上下文分段计价、工具按次收费,都会让 TCO 差一个数量级。
- 不要只看“是否训练”:更关键是“默认保留多久、谁能看、能否 ZDR、是否有审计日志”。
- 要把“可用性/弃用机制”写进合同:包括版本弃用提前期、故障沟通、赔付/SLA。