神刀安全网

好书来袭:谷歌首次披露SRE如何运行百万服务器

TL;DR

书名:Site Reliability Engineering – How Google Runs Production Systems. 

O’Reilly出品,目前可以在美国亚马逊预定,最快这一两周就会发货,如果有渠道可以带回国的同学可以下单买了。如果没有渠道或者读英文吃力的同学也不用担心,中文翻译版已经在路上了,将由 Coding.net CTO孙宇聪(前谷歌资深SRE)为大家奉上最高质量的翻译版,请耐心等待。

好书来袭:谷歌首次披露SRE如何运行百万服务器

说到谷歌,人们会想到他有世界上最好的搜索引擎、有用上就戒不掉的邮件服务、有可以自动整理照片的图片管理服务、有无人驾驶汽车、还有最近非常火爆的Alphago等等。所有这些产品都需要有强大的后端服务提供支撑,这些后端服务需要超大的存储空间、超强的计算能力、超高的网络带宽, 开发这样的服务对技术要求非常高, 能够稳定的运行这些服务则更加困难。

比较关注集群管理的同学可能听说过谷歌的神器Borg,就是用Borg谷歌才能管理全球的百万台服务器,才能使这些机器保持很高的资源利用率。最近谷歌开源的Kubernetes就是建立在运行Borg十几年的经验基础之上的。

但是仅仅有集群管理软件是没法给用户提供任何服务的,为了给用户提供稳定可靠的服务,谷歌有一只专门的团队负责运行这些后端服务,团队名字叫:Site Reliability Engineer。

Site Reliability Engineer直译过来就是系统稳定性工程师,这个职位名称是谷歌创建的,最早可以追溯到2003,相比2008年才被提出来的Devops早了5年。SRE这个职位由Ben Treynor(现在是SVP)加入谷歌之后创立,从创建这个职位到2015年,谷歌已经从最初的7个SRE发展到1200+ SRE了。

关于SRE这个职位的了解,国内的普遍认识是对应到运维工程师的职位,但是根据本人的经验,SRE和国内绝大部分互联网公司的运维是完全不同的工作内容,比较贴近的一个类比是运维工具开发团队兼生产运维和容量规划。 如果你认为SRE管理着谷歌内部所有的生产服务,那你就错了,不是所有的服务都能得到SRE的support的,只有那些重要的而且达到SRE要求的服务才会被SRE接管,如果达不到SRE的要求,对不起开发只能自己管。

对于具体的SRE工作内容和方式,到目前位置也没有比较全面的介绍,但是了解谷歌SRE的人常说的一句话是:和你们相比,大部分公司还处于刀耕火种时代,什么时候你们这些最佳实践能够帮助帮助其他的公司呢?随着这本官方书籍的出版,谷歌毫无保留的将自己十几年SRE的生产管理经验分享出来,业界可以近距离全方位的了解谷歌SRE的工作内容/方式以及最佳实践,这对整个行业的影响将是巨大和深远的。

此书是谷歌SRE成立专门团队,历时1年才完成的。不同的章节由不同产品线资深SRE或者高级经理根据实际经验撰写,由专门的评审委员会review之后定稿,可以说是汇集了谷歌SRE生产环境各个方面的最佳实践。

通过阅读本书,你可以了解到以下方面的最佳实践:

  • 如何平衡可用性和成本

  • 如何制定服务的SLO

  • 如何减少operational的工作

  • 分布式系统的监控

  • 自动化平台演进

  • SRE在软件发布中的角色

以上提到的只是几个大的方面,书中第三部分会针对不同方面有更细化更具体的最佳实践介绍,均出自谷歌十几年来的生产环境运营经验,真金白银的经验分享!

版权说明

本公众号所有文章欢迎转载,转载请标注文章出自微信公众号:云中慢步。

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 好书来袭:谷歌首次披露SRE如何运行百万服务器

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
分享按钮