SRE实践：服务可靠性案例课 / 搞定 SRE，为你的系统保驾护航

Name: SRE实践：服务可靠性案例课
Author: 白园

白园前百度资深运维专家，前快手资深 SRE 专家

更新：2026-07-04 07:33:22

课程目录
课程介绍

在线阅读：开篇词｜互联网公司故障频发，我们应该如何保障服务持续可靠？

SRE为你的系统保驾护航
导学｜如何构建坚不可摧的服务可靠性体系？

俯瞰整个服务可靠性保障体系
01｜监控：如何从业务视角出发添加监控？

带你从业务视角出发，建立完善的监控体系
02｜容量：从业务视角看容量到底是什么？

详细了解容量保障体系，有效地开展容量相关的工作
03｜变更：为什么说变更是可靠性的第一杀手？

分享一套有效的策略来应对变更带来的风险，帮助你提高系统的可靠性。通过这些方法，我们可以更好地控制变更过程，减少其带来的负面影响。
04｜预案：预案的三板斧指的是什么？

预案的高效和熟练运用是提高故障恢复速度的关键因素
05｜备份和恢复：可靠性的最后一道防线

备份是保护数据安全、减少损失和确保业务连续性的最后一道防线
06｜可靠性文化和规范：人是万物的尺度

如何通过优化人员管理和文化、制度建设来提高团队的凝聚力和效率？
微软蓝屏事件：如何应对变更带来的问题？

微软蓝屏事件带给我们的启发
网易云音乐故障猜想：如何避免迁移带来的问题？

网易云音乐故障背后的猜想与思考
07｜监控场景：为什么所有故障都有监控的因素？

今天我们从用户请求流程出发，梳理几个重要的监控节点
08｜容量场景（一）：12306为什么现在能扛住春节抢票了？

12306网站为应对春运期间的购票高峰，采取了业务错峰策略和混合云部署两项关键措施来提升用户体验和系统稳定性。
09｜容量场景（二）：一次让网盘雪崩的热点事件

为应对热点事件，你可以采取几项措施，比如缓存、限流、灾备等等
10｜容量场景（三）：一条让新浪工程师们通宵加班的微博

在资源有限的条件下，如何做快速精准地扩容？
11｜变更场景（一）：一条让Facebook蒸发百亿的指令

在执行任何系统变更或发布时，必须遵循严格的操作步骤和流程
12｜变更场景（二）：一次简单升级竟然损失几千万

如何避免基础平台的变更导致的重大故障？
13｜变更场景（三）：连续绊倒两个云厂商的故障

程序和数据类型的变更
14｜预案场景（一）：B站最为深刻的一次自我剖析

预案场景故障的分析
15｜预案场景（二）：一次机房故障为何让多位高管被辞退？

单机房故障解析
16 ｜备份和恢复：一次误操作中断7小时

数据备份的案例和背后的本质，数据可靠性如何保障和提升
17 ｜可靠性意识：可靠性Oncall十大原则

助你养成可靠性意识
18｜概述：AIOps涉及哪些领域和方向？

这节课我们将从故障发现、故障定位、容量管理、变更控制、预案制定、磁盘故障预测以及大模型应用等七个关键点进行解读。
19｜AIOps故障发现：我们如何看到肉眼看不到的故障？

监控与人工智能结合，会产生哪些创新性的解决方案
20｜AIOps问题定位：如何在报警风暴中找到暴风眼？

AIOps 问题定位
21｜AIOps容量预测：如何准确地预估流量？

准确地预估流量
22｜AIOps变更管理：如何进行更全面地检查与更精准地阻断？

智能checker工具
23｜AIOps智能决策：给故障处理安装一个大脑

如何把预案列表和决策建议结合起来构建一个运维大脑
24｜AIOps数据可靠性：如何预测磁盘故障

AIOps在数据可靠性层面的案例：磁盘故障预测
25｜可靠性基础科学：可靠性背后的运筹学和概率学

可靠性其背后蕴含的概率学、运筹学
结束语｜这里不是终点，而是一个起点

开启可靠性保障之旅
结课测试｜来赴一场满分之约

结课啦，一起来做套题复习一下吧！

课程介绍

专栏交流群你将获得构建全面的服务可靠性保障体系掌握 6 大 SRE 核心运维技能深入解读 10+ 企业级故障案例探索 AIOps 在服务保障中的实践讲师介绍课程介绍...

专栏交流群

你将获得

构建全面的服务可靠性保障体系
掌握 6 大 SRE 核心运维技能
深入解读 10+ 企业级故障案例
探索 AIOps 在服务保障中的实践

讲师介绍

课程介绍

想要做到这一点不仅需要强大的技术支撑，更需要培养一种全面的可靠性思维。为此，我们特别设计了这门《SRE 实践：服务可靠性案例课》。这门课程可以帮助你：

快速识别和填补监控体系的漏洞；
构建完善的容量保障体系，让资源发挥最大效率；
做好应急预案，提高响应的速度；
强化可靠性保障体系基础设施建设；
养成可靠性保障思维；
借助 AIOps 工具，让可靠性工作更加的全面和智能；
……

从技术到业务，从个人意识到组织文化，全方位提升你对服务可靠性的理解和实践能力。

课程设计

基础篇

基础篇会系统地介绍可靠性保证最常见的六项技能：监控、容量、变更、预案、备份和恢复、文化和机制，了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识，不仅仅停留在使用工具和技术解决问题的阶段，而是从意识层开始改变。

应用篇

在应用篇，我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障，我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案，比如机房故障应该如何应对等等。

智能运维篇

这部分我们会介绍 AI 和可靠性结合能产生哪些火花，以及业界的优秀案例。比如通过异常检测，解决传统监控中难以发现的复杂问题，提高对系统异常的识别速度和准确性；利用 AI 进行时序数据分析和回归预测，可以更准确地预估系统负载，从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策，给出合理的建议。

课程目录

适合人群

SRE 工程师、运维开发工程师，以及其他对服务可靠性的感兴趣的软件开发人员。

在线阅读：开篇词｜互联网公司故障频发，我们应该如何保障服务持续可靠？

导学｜如何构建坚不可摧的服务可靠性体系？

01｜监控：如何从业务视角出发添加监控？

02｜ 容量：从业务视角看容量到底是什么？

03｜变更：为什么说变更是可靠性的第一杀手？

04｜预案：预案的三板斧指的是什么？

05｜备份和恢复：可靠性的最后一道防线

06｜可靠性文化和规范：人是万物的尺度

微软蓝屏事件：如何应对变更带来的问题？

网易云音乐故障猜想：如何避免迁移带来的问题？

07｜监控场景：为什么所有故障都有监控的因素？

08｜容量场景（一）：12306为什么现在能扛住春节抢票了？

09｜容量场景（二）：一次让网盘雪崩的热点事件

10｜容量场景（三）：一条让新浪工程师们通宵加班的微博

11｜变更场景（一）：一条让Facebook蒸发百亿的指令

12｜变更场景（二）：一次简单升级竟然损失几千万

13｜变更场景（三）： 连续绊倒两个云厂商的故障

14｜预案场景（一）：B站最为深刻的一次自我剖析

15｜预案场景（二）：一次机房故障为何让多位高管被辞退？

16 ｜备份和恢复：一次误操作中断7小时

17 ｜可靠性意识：可靠性Oncall十大原则

18｜概述：AIOps涉及哪些领域和方向？

19｜AIOps故障发现：我们如何看到肉眼看不到的故障？

20｜AIOps问题定位：如何在报警风暴中找到暴风眼？

21｜AIOps容量预测：如何准确地预估流量？

22｜AIOps变更管理：如何进行更全面地检查与更精准地阻断？

23｜AIOps智能决策：给故障处理安装一个大脑

24｜AIOps数据可靠性：如何预测磁盘故障

25｜可靠性基础科学：可靠性背后的运筹学和概率学

结束语｜这里不是终点，而是一个起点

结课测试｜来赴一场满分之约

课程介绍

专栏交流群

你将获得

讲师介绍

课程介绍

课程设计

基础篇

应用篇

智能运维篇

课程目录

适合人群

订阅须知

02｜容量：从业务视角看容量到底是什么？

13｜变更场景（三）：连续绊倒两个云厂商的故障