文章

AI 视频后端从 0 到 1:监控指标清单(SLA / SLO / SLI)

面向 AI 视频生成与处理后端,给出可直接落地的 SLA、SLO、SLI 分层指标清单,覆盖可用性、时延、质量、成本与安全合规

AI 视频后端从 0 到 1:监控指标清单(SLA / SLO / SLI)

很多团队做 AI 视频业务时,最先关注的是模型效果和生成速度;真正上线后,压垮系统的往往不是“模型不够强”,而是可用性、时延抖动、成本失控、回调链路不可观测

这篇文章给你一套可以直接执行的“从 0 到 1 监控指标清单”,目标不是追求完美,而是先做到:

  • 业务可承诺(敢对客户写 SLA);
  • 内部可治理(SLO 可量化、可报警、可复盘);
  • 数据可闭环(SLI 有统一口径、可追踪到责任组件)。

1.先统一概念:SLA、SLO、SLI 到底怎么分工?

  • SLA(Service Level Agreement):你对客户签署的服务承诺,带商业责任。
    例如:“月度可用性不低于 99.9%,超出阈值按条款赔付。”
  • SLO(Service Level Objective):你内部希望达到的目标值,用来驱动工程动作。
    例如:“P95 提交到首帧时间 ≤ 12 秒。”
  • SLI(Service Level Indicator):可计算的观测指标,是 SLO 的测量方式。
    例如:“过去 30 天内,首帧时延 ≤ 12 秒的请求占比”。

一句话:SLA 面向客户,SLO 面向团队,SLI 面向数据


2.AI 视频后端的请求链路拆解(先分段,再定指标)

建议把一次视频任务拆成 7 段,每一段都定义独立 SLI:

  1. API 接入(鉴权、限流、参数校验)
  2. 任务入队(消息队列、去重、优先级)
  3. 编排调度(路由模型、资源配额、重试策略)
  4. 推理生成(文生视频/图生视频/视频编辑)
  5. 后处理(编码、转码、水印、内容审核)
  6. 存储分发(对象存储、CDN、回调通知)
  7. 查询与结算(状态查询、计费、账单对账)

这样做的好处是:报警能直接定位“是排队慢、推理慢,还是转码慢”,避免把所有问题都归因给模型。


3.从 0 到 1 的指标建设路线图

3.1 第 0 阶段(首月可上线):先保命

必备 8 个 SLI:

  1. 请求成功率(HTTP 2xx/总请求)
  2. 任务成功率(终态 success/总任务)
  3. 任务端到端时延(提交到产出可下载)
  4. 队列等待时长(入队到开始推理)
  5. 推理耗时(开始到模型产出)
  6. 回调成功率(回调 2xx 占比)
  7. GPU 利用率(按机型分组)
  8. 单任务成本(GPU 秒 + 存储 + 出网)

此阶段不要一上来就做 100 个图,先把“故障能发现、故障能定位”跑通。

3.2 第 1 阶段(稳定增长):建 SLO 与错误预算

新增三件事:

  • 分租户 / 分模型 / 分区域看板;
  • P50 / P95 / P99 分位时延;
  • 错误预算(Error Budget)和发布节奏绑定。

示例:月度 SLO 99.5%,则错误预算约 0.5%。当预算 7 天内消耗超过 50%,暂停高风险发布,只允许修复类变更。

3.3 第 2 阶段(规模化):质量与成本双目标优化

新增可选 SLI:

  • 输出质量代理指标(用户二次编辑率、重试率、申诉率);
  • 审核命中率(违规内容拦截漏拦率);
  • 缓存命中率(素材、特征、提示缓存);
  • 资源碎片率(GPU 空洞时间、不可调度比例)。

4.可直接复用的 SLA / SLO / SLI 清单(建议基线)

说明:以下数值为通用起步参考,实际要结合你的模型复杂度、分辨率档位和客户等级做分层。

4.1 可用性类

  • SLA:月度服务可用性 ≥ 99.9%。
  • SLO:日维度 API 可用性 ≥ 99.95%;任务终态成功率 ≥ 99.0%。
  • SLI
    • API 可用性 = 成功请求数 / 总请求数
    • 任务成功率 = success 终态任务数 / 总任务数
    • 严重故障分钟数(Sev1)

4.2 时延类(用户最敏感)

  • SLA:标准档任务 95% 在 60 秒内完成(按合同定义分辨率与时长)。
  • SLO
    • 提交到首帧 P95 ≤ 12 秒
    • 提交到完成 P95 ≤ 45 秒,P99 ≤ 90 秒
    • 队列等待 P95 ≤ 8 秒
  • SLI
    • Time to First Frame(TTFF)
    • End-to-End Latency(E2E)
    • Queue Wait Latency

4.3 可靠性与正确性类

  • SLA:任务状态一致性错误率 ≤ 0.1%(成功却不可下载、失败却被计费等)。
  • SLO
    • 幂等冲突率 ≤ 0.05%
    • 回调重复通知率 ≤ 0.5%
    • 元数据损坏率 ≤ 0.01%
  • SLI
    • 状态机非法迁移次数
    • 回调签名校验失败率
    • 存储对象校验和失败率

4.4 质量体验类(AI 业务关键)

  • SLA:可选写入“质量保障条款”,避免承诺“绝对美学质量”。
  • SLO
    • 用户主动重试率 ≤ 15%
    • 人工审核打回率 ≤ 3%
    • 投诉率 ≤ 0.3%
  • SLI
    • 重试率(同意图短时重复提交)
    • 负反馈率(差评、退款、申诉)
    • 审核漏拦率 / 误拦率

4.5 成本效率类(防止“活下来了但亏钱”)

  • SLA:通常不对外直接承诺,但可约定价格稳定窗口。
  • SLO
    • 单分钟视频生成成本环比波动 ≤ 10%
    • GPU 有效利用率 ≥ 65%
    • 空转时长占比 ≤ 20%
  • SLI
    • Cost per Successful Job
    • GPU Busy Ratio
    • 重试导致的额外成本占比

4.6 安全与合规类

  • SLA:按行业要求承诺数据保留与删除时效(如 30 天内可删除)。
  • SLO
    • 敏感数据脱敏覆盖率 = 100%
    • 审计日志完整率 ≥ 99.99%
    • P0 安全告警响应时间 ≤ 5 分钟
  • SLI
    • 脱敏命中率
    • 审计日志缺失条数
    • 安全告警 MTTA / MTTR

5.仪表盘最小集合(避免“图很多,没人看”)

建议只保留 4 个主看板:

  1. 客户视角看板:可用性、E2E 时延、任务成功率。
  2. 平台视角看板:队列积压、GPU 利用率、模型实例健康。
  3. 质量成本看板:重试率、投诉率、单任务成本。
  4. 故障处置看板:告警数量、MTTA、MTTR、错误预算消耗。

每个看板必须能回答一个问题:

  • 现在用户是否感知故障?
  • 故障在哪一段链路?
  • 是否需要限流、降级、切模型?

6.告警设计:用“症状 + 原因”双通道

不要只报“CPU 高了”“队列长了”,那是原因候选,不是用户症状。

建议告警分层:

  • 症状告警(SLO 违约风险):E2E P95 连续 5 分钟超阈值。
  • 原因告警(组件异常):某模型池不可用实例 > 20%。
  • 保护性告警(即将雪崩):队列积压增长斜率持续上升。

告警信息要带三类上下文:

  1. 影响范围(租户、区域、模型版本)
  2. 变更关联(最近发布、参数调整、流量激增)
  3. 建议动作(限流、切换备池、暂停低优先级任务)

7.错误预算如何驱动发布节奏(非常实用)

可直接使用如下规则:

  • 月度 SLO:99.5%(错误预算 0.5%)。
  • 预算消耗 < 25%:正常发布。
  • 25%~50%:发布需值班负责人审批。
  • 50%~75%:仅允许低风险变更,开启发布后 30 分钟重点观测。
  • 75%:冻结功能发布,只做稳定性修复。

这套机制能减少“越抖越发版、越发版越抖”的恶性循环。


8.落地模板:你可以直接复制的 SLO 文档骨架

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# AI 视频后端 SLO(v1.0)

## 1. 服务范围
- 覆盖接口:/v1/jobs/create, /v1/jobs/query, callback
- 覆盖区域:ap-southeast-1, us-west-2

## 2. 用户旅程关键路径
- 提交任务 → 排队 → 生成 → 转码 → 分发 → 回调

## 3. SLO 定义
- 可用性:月度 ≥ 99.9%
- E2E 时延:P95 ≤ 45s
- 任务成功率:≥ 99.0%

## 4. SLI 计算口径
- 统一事件源:gateway log + job state event + callback log
- 去重规则:request_id + tenant_id

## 5. 告警与升级
- 告警阈值、抑制策略、升级路径

## 6. 错误预算策略
- 预算计算窗口、发布限制、例外审批机制

9.常见坑位清单(上线后最容易踩)

  1. 只看平均值,不看 P95/P99:用户卡顿通常发生在长尾。
  2. 只看 API 成功,不看任务终态:200 返回不代表视频生成成功。
  3. 没有统一 request_id / job_id:跨链路排障几乎不可能。
  4. 把质量问题混进系统可用性:SLO 会失真,团队无从改进。
  5. 没有按租户分层:大客户波动会淹没整体平均。
  6. 告警阈值固定不变:活动期间和夜间基线应不同。

10.总结

AI 视频后端的监控体系,不是“把 Prometheus 装好”就结束,而是要从业务承诺倒推工程指标:

  • 先定义 SLA 边界,再拆成可执行 SLO;
  • 用统一口径的 SLI 做事实依据;
  • 用错误预算管理发布节奏;
  • 用分段链路指标实现快速定位。

如果你是刚起步团队,可以先记住一句:

先把“可用性 + 时延 + 成本”三板斧做扎实,再逐步引入质量和合规指标,你的 AI 视频后端就会从“能跑”走向“可运营”。

本文由作者按照 CC BY 4.0 进行授权