架構 Microsoft Azure 架構良好架構 Azure 應用程式架構指南 參考架構和範例工作負載 適用於 Azure 的 Microsoft 雲端採用架構 在 Azure 上建置微服務 Azure 資料架構指南 雲端最佳做法 設計可靠的 Azure 應用程式 雲端設計模式 Azure for AWS 專業人員 適用于 GCP 專業人員的 Azure 效能微調 在 Azure 架構中心深入瞭解
監視 Azure 監視器概觀 使用 Azure 監視器的計量 使用 Azure 監視器記錄 Application Performance Management 與 Application Insights 使用 Azure 監視器的分散式追蹤 深入瞭解 Azure 監視器
文化特性 網站可靠性工程的演進 建置 SRE:來自外部的文化特性 多元文化團隊的文化差異和有效共同作業 SRE 的演進和 SRE 卡塔利澤的不斷上升需求 意見反應迴圈:SREs 如何受益,以及實現其潛力所需的專案 瞭解商務計量可讓您獲得更好的 SRE 網站可靠性永無止境的故事 每天在營運中為星期一
監視和可檢視性 超過 6 億個成員和數百個微服務:我們如何調整我們的監視系統以跟上 離開被擊敗的路徑:將可觀察性焦點從您的服務移至您的客戶 您取得量值的原因—計量為何很重要 抵禦風暴:預警如何拯救農場 擷取和分析數百萬個查詢,沒有任何額外負荷 事件相互關聯:減少 MTTR 的新方法 強固監視如何為LinkedIn摘要提供高可用性 減少 MTTR 和誤報:LinkedIn的事件相互關聯
做法和原則 可用性 - 思考超過 9s SRE 的精神模型 建立應用程式時優先處理信任 JAVA Hates Linux。 處理它。 SRE 實務的特性和瞭解階段 安全性和 SRE:自然強制乘數 生產改進評論:從修復債務中咬一口 確保高效能應用程式的可靠性 服務分數卡 — 遊戲卓越營運 如何藉由烤服務來改善服務
Teams 和管理 程式碼黃色:以智慧方式説明營運頂級團隊 在沒有管理的情況下領先:成為 SRE 技術領導者 跨公司的 SRE 實作差異 100 個 Teams,100 種失敗方式 開始 SRE 參與的原因、內容和方式 建置和執行 SRE Teams 大學生到 SRE:上線您的入門級人才 LinkedIn SRE:從開始到全球規模 在地球上最大的軟體公司中接合 SRE DNA 序列 將第 1 層毛毛蟲改造成蝴蝶
工具和技術 Azure SREBot:多於聊天機器人— 智慧型 Bot 來壓碎緩和時間 TrafficShift:避免大規模災害 讓我們建置分散式檔案系統 TCP— 架構、增強功能和微調 BGP — 網際網路的骨幹 無伺服器中的 Ops 如何使用 Kafka 調整資料庫基礎結構 SRE 的網路:針對應用程式進行疑難排解時需要知道的事項 Ambry — LinkedIn的分散式不可變物件存放區 BPerf — Bing.com 生產環境上的雲端分析 DNS:新式問題的舊解決方案 使用 Rum DNS @ LinkedIn
調整大小 流量預測和壓力測試基礎結構 大規模學習很難! 中斷模式分析和髒資料 調整分散式具狀態系統:LinkedIn案例研究 大規模偵錯 - 從單一方塊移至生產環境 大規模建置集中式快取基礎結構 可調整程式碼撰寫 — 尋找錯誤 管理容量 @ LinkedIn InStream:使用 BitTorrent、Python、Salt 和 Kafka 進行大規模散發 避免和突破容量監獄 全域流量路由和容錯移轉的演進