企业AI应用实践 系列

面向企业 AI 落地的工程实践,覆盖从 PoC 到生产的完整路径,包括权限、成本、审计与稳定性治理。

← 返回合集列表
461
Prompt 也要上 Git:版本管理、灰度、A/B 与离线评测

很多团队把 Prompt 当成“随手改改的字符串”,最后会遇到同一个灾难:效果变差了,但你不知道改了什么;成本升高了,但你不知道为什么;线上翻车了,也没有回滚按钮。

2026-02-20企业AI应用实践
462
长上下文 vs RAG:3 组实验帮你做决策(成本/延迟/质量)

遇到“知识不准/幻觉/记不住”的问题,很多团队会在两条路里摇摆:

2026-02-17企业AI应用实践
463
别把限流写成重试地狱:并发控制 + 队列 + 退避的组合拳

当你接入 LLM 之后,“失败”经常不是代码写错,而是系统在告诉你:你需要节流。但很多业务的第一反应是“加重试”,最后变成:失败 → 重试更多 → 更失败 → 雪崩。

2026-02-13企业AI应用实践
464
别把限流写成重试地狱:并发控制 + 队列 + 退避的组合拳

当你接入 LLM 之后,“失败”经常不是代码写错,而是系统在告诉你:你需要节流。但很多业务的第一反应是“加重试”,最后变成:失败 → 重试更多 → 更失败 → 雪崩。

2026-02-13企业AI应用实践
465
SSE 流式输出工程化:TTFT、断线续传与客户端消费

很多人把“流式输出”理解成“更快”。但在工程上,流式真正的价值是:把一次长调用切成可持续交付的片段,从而让你拥有 更好的体验控制(更低 TTFT)、更强的可取消性(随时 stop)、以及 更细粒度的观测(首字慢?中途卡?尾部慢?)。

2026-02-10企业AI应用实践
466
SSE 流式输出工程化:TTFT、断线续传与客户端消费

很多人把“流式输出”理解成“更快”。但在工程上,流式真正的价值是:把一次长调用切成可持续交付的片段,从而让你拥有 更好的体验控制(更低 TTFT)、更强的可取消性(随时 stop)、以及 更细粒度的观测(首字慢?中途卡?尾部慢?)。

2026-02-10企业AI应用实践
467
给大模型服务立规矩:SLO/错误预算/TTFT 一次讲清

很多 LLM 应用“能用”和“好用”之间,差的不是模型,而是工程指标:你到底在保证什么?是总耗时?首字时间(TTFT)?还是在高峰期的可用性?

2026-02-06企业AI应用实践
468
给大模型服务立规矩:SLO/错误预算/TTFT 一次讲清

很多 LLM 应用“能用”和“好用”之间,差的不是模型,而是工程指标:你到底在保证什么?是总耗时?首字时间(TTFT)?还是在高峰期的可用性?

2026-02-06企业AI应用实践
469
Token 账算不明白就别上生产:LLM FinOps 的 6 本账

“Token × 单价”只能回答“这次调用花了多少钱”,却回答不了更重要的问题:钱花在哪、为什么花、值不值、还能不能更省。当你进入生产环境,真正需要的是 LLM FinOps:像管理云成本一样管理模型成本。

2026-02-03企业AI应用实践
470
别再凭感觉选型:可复现 LLM 评测框架(数据集/指标/回归)

“哪个模型更好”这种问题,最怕用“我感觉”来回答。因为模型效果会随:提示词版本、温度参数、上下文长度、业务数据变化而波动;如果你没有一套可复现的评测框架,今天选的“最好”,下周可能就变成“翻车最多”。

2026-01-30企业AI应用实践
471
从单模型到多模型:Model Router 的 4 种路由策略(规则/预算/质量/延迟)

很多团队的 LLM 接入会经历同一个演进:先接一个最顺手的模型 → 业务做起来后发现“不是所有请求都值得用同一个模型” → 开始出现“按场景选模型、按成本控调用、按稳定性做兜底”的需求。

2026-01-27企业AI应用实践
472
从单模型到多模型:Model Router 的 4 种路由策略(规则/预算/质量/延迟)

很多团队的 LLM 接入会经历同一个演进:先接一个最顺手的模型 → 业务做起来后发现“不是所有请求都值得用同一个模型” → 开始出现“按场景选模型、按成本控调用、按稳定性做兜底”的需求。

2026-01-27企业AI应用实践
473
HTTP 状态码实战指南:规避 API 调用陷阱与 147API 优化策略

做接口联调时,HTTP 状态码更像是调用链路的“仪表盘提示灯”:它不一定能直接定位到“哪一行代码错了”,但能迅速把问题归类到同一条排查路径上。无论你在接入 Claude、GPT 等模型能力,还是在对接任意 Web 服务,只要出现 401、4

2026-01-15企业AI应用实践
上一页1222324