AI 视频后端从 0 到 1:监控指标清单(SLA / SLO / SLI)
面向 AI 视频生成与处理后端,给出可直接落地的 SLA、SLO、SLI 分层指标清单,覆盖可用性、时延、质量、成本与安全合规
AI 视频后端从 0 到 1:监控指标清单(SLA / SLO / SLI)
很多团队做 AI 视频业务时,最先关注的是模型效果和生成速度;真正上线后,压垮系统的往往不是“模型不够强”,而是可用性、时延抖动、成本失控、回调链路不可观测。
这篇文章给你一套可以直接执行的“从 0 到 1 监控指标清单”,目标不是追求完美,而是先做到:
- 业务可承诺(敢对客户写 SLA);
- 内部可治理(SLO 可量化、可报警、可复盘);
- 数据可闭环(SLI 有统一口径、可追踪到责任组件)。
1.先统一概念:SLA、SLO、SLI 到底怎么分工?
- SLA(Service Level Agreement):你对客户签署的服务承诺,带商业责任。
例如:“月度可用性不低于 99.9%,超出阈值按条款赔付。” - SLO(Service Level Objective):你内部希望达到的目标值,用来驱动工程动作。
例如:“P95 提交到首帧时间 ≤ 12 秒。” - SLI(Service Level Indicator):可计算的观测指标,是 SLO 的测量方式。
例如:“过去 30 天内,首帧时延 ≤ 12 秒的请求占比”。
一句话:SLA 面向客户,SLO 面向团队,SLI 面向数据。
2.AI 视频后端的请求链路拆解(先分段,再定指标)
建议把一次视频任务拆成 7 段,每一段都定义独立 SLI:
- API 接入(鉴权、限流、参数校验)
- 任务入队(消息队列、去重、优先级)
- 编排调度(路由模型、资源配额、重试策略)
- 推理生成(文生视频/图生视频/视频编辑)
- 后处理(编码、转码、水印、内容审核)
- 存储分发(对象存储、CDN、回调通知)
- 查询与结算(状态查询、计费、账单对账)
这样做的好处是:报警能直接定位“是排队慢、推理慢,还是转码慢”,避免把所有问题都归因给模型。
3.从 0 到 1 的指标建设路线图
3.1 第 0 阶段(首月可上线):先保命
必备 8 个 SLI:
- 请求成功率(HTTP 2xx/总请求)
- 任务成功率(终态 success/总任务)
- 任务端到端时延(提交到产出可下载)
- 队列等待时长(入队到开始推理)
- 推理耗时(开始到模型产出)
- 回调成功率(回调 2xx 占比)
- GPU 利用率(按机型分组)
- 单任务成本(GPU 秒 + 存储 + 出网)
此阶段不要一上来就做 100 个图,先把“故障能发现、故障能定位”跑通。
3.2 第 1 阶段(稳定增长):建 SLO 与错误预算
新增三件事:
- 分租户 / 分模型 / 分区域看板;
- P50 / P95 / P99 分位时延;
- 错误预算(Error Budget)和发布节奏绑定。
示例:月度 SLO 99.5%,则错误预算约 0.5%。当预算 7 天内消耗超过 50%,暂停高风险发布,只允许修复类变更。
3.3 第 2 阶段(规模化):质量与成本双目标优化
新增可选 SLI:
- 输出质量代理指标(用户二次编辑率、重试率、申诉率);
- 审核命中率(违规内容拦截漏拦率);
- 缓存命中率(素材、特征、提示缓存);
- 资源碎片率(GPU 空洞时间、不可调度比例)。
4.可直接复用的 SLA / SLO / SLI 清单(建议基线)
说明:以下数值为通用起步参考,实际要结合你的模型复杂度、分辨率档位和客户等级做分层。
4.1 可用性类
- SLA:月度服务可用性 ≥ 99.9%。
- SLO:日维度 API 可用性 ≥ 99.95%;任务终态成功率 ≥ 99.0%。
- SLI:
- API 可用性 = 成功请求数 / 总请求数
- 任务成功率 = success 终态任务数 / 总任务数
- 严重故障分钟数(Sev1)
4.2 时延类(用户最敏感)
- SLA:标准档任务 95% 在 60 秒内完成(按合同定义分辨率与时长)。
- SLO:
- 提交到首帧 P95 ≤ 12 秒
- 提交到完成 P95 ≤ 45 秒,P99 ≤ 90 秒
- 队列等待 P95 ≤ 8 秒
- SLI:
- Time to First Frame(TTFF)
- End-to-End Latency(E2E)
- Queue Wait Latency
4.3 可靠性与正确性类
- SLA:任务状态一致性错误率 ≤ 0.1%(成功却不可下载、失败却被计费等)。
- SLO:
- 幂等冲突率 ≤ 0.05%
- 回调重复通知率 ≤ 0.5%
- 元数据损坏率 ≤ 0.01%
- SLI:
- 状态机非法迁移次数
- 回调签名校验失败率
- 存储对象校验和失败率
4.4 质量体验类(AI 业务关键)
- SLA:可选写入“质量保障条款”,避免承诺“绝对美学质量”。
- SLO:
- 用户主动重试率 ≤ 15%
- 人工审核打回率 ≤ 3%
- 投诉率 ≤ 0.3%
- SLI:
- 重试率(同意图短时重复提交)
- 负反馈率(差评、退款、申诉)
- 审核漏拦率 / 误拦率
4.5 成本效率类(防止“活下来了但亏钱”)
- SLA:通常不对外直接承诺,但可约定价格稳定窗口。
- SLO:
- 单分钟视频生成成本环比波动 ≤ 10%
- GPU 有效利用率 ≥ 65%
- 空转时长占比 ≤ 20%
- SLI:
- Cost per Successful Job
- GPU Busy Ratio
- 重试导致的额外成本占比
4.6 安全与合规类
- SLA:按行业要求承诺数据保留与删除时效(如 30 天内可删除)。
- SLO:
- 敏感数据脱敏覆盖率 = 100%
- 审计日志完整率 ≥ 99.99%
- P0 安全告警响应时间 ≤ 5 分钟
- SLI:
- 脱敏命中率
- 审计日志缺失条数
- 安全告警 MTTA / MTTR
5.仪表盘最小集合(避免“图很多,没人看”)
建议只保留 4 个主看板:
- 客户视角看板:可用性、E2E 时延、任务成功率。
- 平台视角看板:队列积压、GPU 利用率、模型实例健康。
- 质量成本看板:重试率、投诉率、单任务成本。
- 故障处置看板:告警数量、MTTA、MTTR、错误预算消耗。
每个看板必须能回答一个问题:
- 现在用户是否感知故障?
- 故障在哪一段链路?
- 是否需要限流、降级、切模型?
6.告警设计:用“症状 + 原因”双通道
不要只报“CPU 高了”“队列长了”,那是原因候选,不是用户症状。
建议告警分层:
- 症状告警(SLO 违约风险):E2E P95 连续 5 分钟超阈值。
- 原因告警(组件异常):某模型池不可用实例 > 20%。
- 保护性告警(即将雪崩):队列积压增长斜率持续上升。
告警信息要带三类上下文:
- 影响范围(租户、区域、模型版本)
- 变更关联(最近发布、参数调整、流量激增)
- 建议动作(限流、切换备池、暂停低优先级任务)
7.错误预算如何驱动发布节奏(非常实用)
可直接使用如下规则:
- 月度 SLO:99.5%(错误预算 0.5%)。
- 预算消耗 < 25%:正常发布。
- 25%~50%:发布需值班负责人审批。
- 50%~75%:仅允许低风险变更,开启发布后 30 分钟重点观测。
75%:冻结功能发布,只做稳定性修复。
这套机制能减少“越抖越发版、越发版越抖”的恶性循环。
8.落地模板:你可以直接复制的 SLO 文档骨架
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# AI 视频后端 SLO(v1.0)
## 1. 服务范围
- 覆盖接口:/v1/jobs/create, /v1/jobs/query, callback
- 覆盖区域:ap-southeast-1, us-west-2
## 2. 用户旅程关键路径
- 提交任务 → 排队 → 生成 → 转码 → 分发 → 回调
## 3. SLO 定义
- 可用性:月度 ≥ 99.9%
- E2E 时延:P95 ≤ 45s
- 任务成功率:≥ 99.0%
## 4. SLI 计算口径
- 统一事件源:gateway log + job state event + callback log
- 去重规则:request_id + tenant_id
## 5. 告警与升级
- 告警阈值、抑制策略、升级路径
## 6. 错误预算策略
- 预算计算窗口、发布限制、例外审批机制
9.常见坑位清单(上线后最容易踩)
- 只看平均值,不看 P95/P99:用户卡顿通常发生在长尾。
- 只看 API 成功,不看任务终态:200 返回不代表视频生成成功。
- 没有统一 request_id / job_id:跨链路排障几乎不可能。
- 把质量问题混进系统可用性:SLO 会失真,团队无从改进。
- 没有按租户分层:大客户波动会淹没整体平均。
- 告警阈值固定不变:活动期间和夜间基线应不同。
10.总结
AI 视频后端的监控体系,不是“把 Prometheus 装好”就结束,而是要从业务承诺倒推工程指标:
- 先定义 SLA 边界,再拆成可执行 SLO;
- 用统一口径的 SLI 做事实依据;
- 用错误预算管理发布节奏;
- 用分段链路指标实现快速定位。
如果你是刚起步团队,可以先记住一句:
先把“可用性 + 时延 + 成本”三板斧做扎实,再逐步引入质量和合规指标,你的 AI 视频后端就会从“能跑”走向“可运营”。
本文由作者按照 CC BY 4.0 进行授权