SRE实战手册 / 从0到1带你搞定系统稳定性

赵成
蘑菇街技术总监
  • 课程目录
  • 课程介绍
  • 开篇词|SRE是解决系统稳定性问题的灵丹妙药吗?

    SRE是稳定性的代名词,要想系统地做好稳定性这件事儿,SRE 就是必修课。

  • 01|SRE迷思:无所不能的角色?还是运维的升级?

    SRE一定要从全局考虑,体系一定要“配套”,它的目的就是提升MTBF,降低MTTR。

  • 02 | 系统可用性:没有故障,系统就一定是稳定的吗?

    SRE关注的稳定性是系统的整体运行状态,而不仅仅只关注故障状态下的稳定性。

  • 03 | SRE切入点:选择SLI,设定SLO

    如何选择SLI指标,如何制定SLO目标,这节课都会告诉你!

  • 04 | 错误预算:达成稳定性目标的共识机制

    错误预算是通过SLO推导出来的,它警示效果更显著。我们可以通过三个维度来对SLO和错误预算的合理性进行评估。

  • 05 | 案例:落地SLO时还需要考虑哪些因素?

    作者会带你一步一步系统性地设定SLO,既巩固之前学习地知识,又会跟你分享在实践中需要注意的事项。

  • 06 | 故障发现:如何建设On-Call机制?

    为什么降低故障响应时间需要建立On-Call机制?建设On-Call流程机制的关键5步法又是什么?答案都在这里。

  • 07|故障处理:一切以恢复业务为最高优先级

    故障处理效率取决于:技术层面的故障隔离手段是否完备;故障处理过程的指挥体系是否完善;故障处理机制保障是否经过足够的演练。

  • 08|故障复盘:黄金三问与判定三原则

    在做故障复盘时,不要纠结于故障根因到底是哪个,而是把更多注意力放在做哪些事情,可以提升故障处理的效率,缩短业务故障时长。

  • 09|案例:互联网典型的SRE组织架构是怎样的?

    SRE并不是一个单纯的岗位定义,它是由多个不同角色组合而成的团队。SRE = PE + 工具平台开发 + 稳定性平台开发

  • 10 | 经验:都有哪些高效的SRE组织协作机制?

    通过“以赛带练”的思路来驱动稳定性体系的建设和提升,需要PE、业务开发等岗位协同合作。

  • 结束语|聊聊我的SRE落地心路历程

    SRE并不神秘,让我们一起探索出一条适合自己的SRE实践之路。

  • 答疑|没什么能阻挡你拓展边界的渴望

    今天我总共梳理了六个问题,前五个和SRE的落地及概念有关,最后一个关于个人成长,我们一起继续交流。

你将获得

  • 理解 SRE 的正确姿势
  • 10+ SRE 必学必会知识点
  • 可落地的故障应急处理机制
  • 2 种典型 SRE 组织架构案例分享

讲师介绍

赵成,蘑菇街技术总监,《赵成的运维体系管理课》作者,运营公众号“成哥的世界”。他还是ArchSummit全球架构师峰会运维专题明星讲师和优秀出品人,TGO杭州分会会员。赵成曾在华为工作七年,有丰富的电信行业软件研发及运维经验。

近两年,赵成和他的团队花了大量精力来做稳定性保障方面的事情,不断探索在SRE方面的实践,并取得了巨大成效。2019年,在SRE领域最具国际影响力的SRECon上,他分享了蘑菇街在容量压测方面的实践经验,得到了全球各大公司同行们的热烈反馈。

在国内,他还发起了颇具影响力的“聊聊SRE”社区,为广大SRE爱好者提供了一个深度交流的平台。

课程介绍

SRE(Site Reliability Engineering),网站稳定性工程,最早是由Google设置的一类工程师岗位,专职负责其超大规模分布式产品(如搜索、Gmail、Docs等)的稳定性。而后,SRE慢慢发展成了一系列面向稳定性的,包括技术、管理、流程、组织架构,以及文化建设的最佳实践,并最终被提炼成一套方法论,广泛流传。

在国内,SRE的这套方法论,也被很多企业的IT团队作为技术能力提升和组织转型,特别是运维转型的参考标准。但是,在实际落地这套方法论时,大家有很多疑惑,比如:

  • SRE如果不是运维的升级版,那它到底是什么?
  • SRE涉及范围如此之大,到底应该从哪里入手建设呢?
  • 在稳定性方面,有些公司已经做了很多工作,特别是在技术体系搭建上,为什么还是故障频发?难道单纯的技术保障还不够吗?
  • 引入了SRE,团队的能力应该怎么提升?组织架构应该怎么匹配呢?

因此,我们邀请赵成老师开设了《SRE实战手册》这个课程。他将结合自己的实践经验,从基础理论和实践操作两方面入手,一次性解决你心中的困惑,帮助你正确认识SRE,掌握可落地的实践方法。

这个课程分为基础篇和实践篇两大模块。

  • 基础篇:带你从实践的角度理解SRE是什么,并以SRE的基本概念SLO和SLI作为切入点,教你一步步建立起SRE稳定性标准。最后结合具体的电商案例,分享在实际场景中设定稳定性目标应该考虑的因素。
  • 实践篇:围绕“故障”这个影响稳定性的核心事件,分享故障发现、故障处理、故障复盘三个阶段的最佳实践。同时,着眼落地SRE时绕不开的组织架构问题,分享真实的组织架构设置实践和高效的跨团队协作经验。

课程目录

适合人群

有1年以上运维和开发经验的工程师,运维领域架构师,业务架构师,技术团队负责人。

不管你是否正在落地SRE,只要你关注系统、业务或应用等的稳定性问题,这个课程都适合你学习。

特别放送

订阅须知