SRE生存指南:系統中斷響應與正常運行時間最大化
  • 推薦0
  • 收藏1
  • 瀏覽185

SRE生存指南:系統中斷響應與正常運行時間最大化

Nat Welch (作者)  馮文輝 (譯者) 張春雨 (責任編輯)

  • 書  號:978-7-121-37176-9
  • 出版日期:2019-10-01
  • 頁  數:244
  • 開  本:16(185*235)
  • 出版狀態:上市銷售
  • 原書名: Real-World SRE: The Survival Guide for Responding to a System Outage and Maximizing Uptime
  • 維護人:崔志偉

相關圖書

Zabbix企業級分布式監控系統(第2版)

吳兆松 (作者)

本書基于穩定版本Zabbix 4.0,對Zabbix的各項功能進行了詳細而深入的講解,包括監控系統規劃、安裝包定制、架構高可用、性能調優、指標數據采集、自動化處...

 

Nginx實戰:基于Lua語言的配置、開發與架構詳解

王力 王力 (作者)

本書主要講解了Nginx在反向代理和應用開發中的作用,閱讀本書可以了解Nginx在互聯網開發中扮演的多個角色,充分利用這些角色的各項功能有助于提升服務的整體性能...

¥47.40

容器云運維實戰——Docker與Kubernetes集群

黃靖鈞 (作者)

本書圍繞當前容器云運維的主流框架:Docker、Kubernetes詳細介紹了容器云運維的實戰技巧,在內容上分為三大部分:第一部分(第1~2章)介紹了在Linu...

¥53.40

奔跑吧Ansible(第2版)

(加)Lorin Hochstein ,(加)Rene Moser (作者) 陳爾冬 (譯者)

Ansible是近年來急速發展的開源配置管理工具。在Ansible之前,行業中已經有很多開源配置管理工具了,特別是大名鼎鼎的Puppet,簡直是配置管理工具中的...

¥119.00

Serverless架構:無服務器應用與AWS Lambda

Dr. Peter Sbarski? (作者) 覃宇 (譯者)

無服務器是軟件架構世界中的熱門新話題,它充分利用大量的云平臺服務,讓開發者只需關注核心業務邏輯的實現。同時,它按需分配和使用資源的運行方式,在降低基礎設施成本的...

¥108.00

智能運維:從0搭建大規模分布式AIOps系統

彭冬 朱偉 劉俊 等 (作者)

本書將全面完整地介紹智能運維的技術體系,以及大企業的智能運維實踐經驗,讓讀者更加了解運維技術的現狀和發展方向,在實踐中能夠有所借鑒。同時,也能幫助運維工程師在一...

¥79.00
站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專注于如何確保系統穩定、可靠地運行。本書基于一個金字塔層次結構模型,深入淺出地介紹了關于SRE 的方方面面,涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關于SRE 的相關知識。
Nat Welch是一名美國的軟件開發人員。自2005年以來,他一直做著構建網站并保持其運行的工作。他曾先后是谷歌、HFA等各大平臺的網站可靠性工程師。多年來,他一直致力于提高網站的可靠性以幫助開發人員構建可靠的系統。
馮文輝,現任ThoughtWorks中國區資深架構咨詢師,具有11年的軟件行業經驗,曾服務于多個世界500強企業,覆蓋銀行、保險、通信、汽車、物流等行業。為客戶提供敏捷開發、DevOps、架構設計與數字化轉型等咨詢服務。熱衷于探索更好的架構設計方法,助力企業的數字化轉型。
總會在某個時候,軟件開發人員所開發的站點會遭遇噩夢般的無法訪問的故障——客戶說他們已經連續幾個小時無法訪問你的網站了;當你在睡覺時,沒有顧客能夠購買網站上正在銷售的T恤;或者在一年中最重要的銷售日里,所有服務器都因承受不了高負載而崩潰了。
這本書適合誰
本書面向希望提高公司軟件可靠性的軟件開發人員和運維人員。本書將向你介紹一個致力于提高軟件可靠性的基本框架,并使你深入了解站點可靠性工程這個領域。對于已經經歷過重大系統服務中斷的工程師和開發人員來說,這是你希望擁有的書。對于那些幸運地沒有經歷過服務中斷噩夢的工程師和開發人員,現在就買這本書吧!
這本書涵蓋了哪些內容
第1章 簡介,探討了SRE領域相對較新的發展狀況,并概述了用于本書的可供上手實踐的框架。
第2章 監控,討論了在監控時使用的工具和方法。在本章之后,一個很好的實驗就是設置對服務的監控,即使它們只是為測試而編寫的虛假服務,你也應該去監控它們隨著時間是否有所變化。
第3章 事故響應,解釋了該如何應對中斷,并讓團隊為最壞的情況做好準備。本章還專注于圍繞團隊協作建立即時響應與輪換的最佳實踐系統,以及構建流程以盡量減輕由生產事故造成的壓力。
第4章 事后回顧,讓你能為自己、你的團隊和你的組織撰寫事后回顧報告,以促進事后回顧。本章還討論了要收集的數據,以及如何借助通信跟蹤未來的工作。
第5章 測試和發布,回顧了有關測試和發布的常見實踐方案。
第6章 容量規劃,介紹了一些有關預算的基礎知識,并討論了如何為基礎架構的擴容制訂計劃。
第7章 構建工具,討論了如何從提高響應力的角度來編寫軟件,還探討了如何發現新項目,如何定義這些項目及如何規劃它們。然后,討論了如何實施這些項目并進行軟件的長期維護,以及如何反思自己所做的工作。
第8章 用戶體驗,概述了有關用戶體驗和用戶測試的基礎知識,并討論了安全性和性能預算問題。
第9章 網絡基礎,幫助你深入了解網絡基礎知識。
第10章 Linux和云基礎,介紹了Linux和常見云服務的基礎知識。
本書配套資源
? 本書中所有用Go語言編寫的代碼都基于Go 1.10版本。讀者可以到其官網獲取最新的版本。
? 本書中所有用Ruby語言編寫的代碼都基于Ruby 2.5版本。讀者可以到其官網獲取最新的版本。
本書使用的約定
本書中使用了一些文本約定。
代碼塊示例如下。
"hello world"
end
當希望讀者注意代碼塊中的特定部分時,相關的行或項目將以粗體顯示,示例如下。
"hello world"
end
end
粗體:表示第一次出現的新術語、重要單詞。例如,會出現如下所示的文本。
服務水平指標 Service Level Indicator(SLI)可能是業務最重要的指標。


目錄

目錄
1 簡介 1
SRE簡史 2
SRE是什么 3
關于這本書 7
以SRE作為新項目的框架 9
小結 12
2 監控 13
為什么要監控 13
檢測應用程序 16
度量什么 23
SLIs、SLOs和錯誤預算簡介 26
錯誤預算 27
收集和保存監控數據 29
輪詢應用程序 29
推送應用程序 32
展示監控信息 35
任意查詢 35
圖表 36
儀表板 37
聊天機器人 38
管理和維護監控數據 38
溝通 39
他們知道有監控嗎 39
小結 40
參考資料 41
3 事故響應 42
什么是事故 43
什么是事故響應 45
警報 47
什么時候發起警報 48
怎么發出警報 49
向誰發出警報 54
隨時待命 55
溝通 57
事故指揮系統 59
在哪里溝通 61
恢復系統 61
警報解除 63
小結 64
4 事后回顧 65
什么是事后回顧 65
為什么寫事后回顧報告 66
何時寫事后回顧報告 68
開展事故分析 69
如何寫事后回顧報告 71
總結 71
影響 72
時間 73
根本原因 74
行動項 75
附錄 77
停止事后指責 77
舉行事后回顧會議 79
分析以往的事后回顧報告 80
MTTR與MTBF 81
警報疲勞 81
討論過去的服務中斷 81
小結 82
參考資料 82
5 測試和發布 83
測試 84
測試內容 87
發布 100
何時發布 101
回滾 104
自動化 104
持續 105
小結 106
6 容量規劃 107
企業財務簡介 108
為什么需要規劃 110
風險管理與期望管理 111
定義一個規劃 112
當前的容量是多少 113
何時達到容量極限 115
應該如何更改容量 119
執行規劃 125
架構——性能變化的根源 126
技術作為利潤中心和采購 128
小結 128
7 構建工具 129
尋找項目 131
定義項目 133
RDD 133
設計文檔 136
項目計劃 138
例子 139
回顧會與站會 141
工作分配 142
構建項目 143
關于編寫代碼的建議 143
關注點分離 144
長期工作 145
筆記本 148
文檔與維護項目 149
小結 150
8 用戶體驗 151
設計和用戶體驗簡介 155
現實世界的交互設計 157
用戶測試 160
挑選一種體驗 161
設計測試 162
尋找要測試的人 162
開發者體驗 163
工具經驗 164
績效預算 164
安全性 166
身份認證 167
授權 168
風險概況 168
網絡釣魚 169
ACM道德準則 170
小結 171
參考資料 172
9 網絡基礎 173
互聯網 173
發送一個HTTP請求 175
DNS 175
以太網和TCP/IP 179
HTTP 186
curl與wget 189
網絡監控工具 194
netstat 194
nc 195
tcpdump 196
小結 197
參考資料 197
10 Linux和云基礎 198
Linux基礎 198
一切皆是文件 199
進程是什么 206
syscalls 207
構建自己的工具 213
云基礎 214
虛擬機 215
容器 216
負載均衡 218
自動伸縮 219
存儲 219
隊列與發布/訂閱 220
伸縮單元 221
架構面試示例 222
小結 226
參考資料 226

讀者評論

相關博文

  • SRE生存指南:系統中斷響應與正常運行時間最大化

    SRE生存指南:系統中斷響應與正常運行時間最大化

    管理員賬號 2019-09-12

    近20年是互聯網技術飛速發展的20年。互聯網業務的快速發展不僅直接帶來了流量、安全等方面的不確定性,同時也促進了技術架構的快速演進——技術架構變得越來越復雜,而這些因素都將導致系統不可用發生概率的大幅度提升。當人類的工作、生活變得越來...

    管理員賬號 2019-09-12
    56 0 0 0
0k000澳客网竞彩