Dokumentacja inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji to dyscyplina inżynieryjna, która pomaga organizacji trwale uzyskać odpowiedni poziom niezawodności w swoich systemach, usługach i produktach.
Zwiększanie niezawodności dzięki nowoczesnym rozwiązaniom dotyczącym operacji
Kursy online z zakresu inżynierii niezawodności lokacji
Zasoby dotyczące inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji na platformie Azure
Dokumentacja dla inżynierów niezawodności lokacji
Architektura
Aprowizowanie i dostarczanie
Wykłady na temat inżynierii niezawodności lokacji od firmy Microsoft
Kultura
- Ewolucja inżynierii niezawodności lokacji
- Tworzenie inżynierii niezawodności lokacji: Kultura od zewnątrz
- Niuanse kulturowe i efektywna współpraca zespołów wielokulturowych
- Ewolucja inżynierii niezawodności lokacji i rosnące zapotrzebowanie na osoby katalizujące inżynierię niezawodności lokacji
- Sprzężenia zwrotne: Jakie są korzyści dla inżynierów niezawodności lokacji i czego potrzeba, aby zrealizować ich potencjał
- Dzięki poznaniu metryk biznesowych możesz stać się lepszym inżynierem niezawodności lokacji
- Niekończąca się opowieść niezawodności lokacji
- W dziale operacji codziennie jest poniedziałek
Reagowanie na zdarzenia i przeglądy po zdarzeniach
Monitorowanie i wgląd
- Ponad 600 mln członków i setki mikrousług: Jak skalowaliśmy system monitorowania, aby nadążyć
- Poza utartą ścieżką: Koncentrowanie wglądu na kliencie, a nie na usłudze
- Znasz to, co mierzysz — dlaczego metryki są ważne
- Przetrwanie sztormu: Jak wczesne ostrzeżenia uratowały farmę
- Przechwytywanie i analizowanie milionów zapytań bez narzutu
- Korelacja zdarzeń: Świeże podejście do zmniejszania średniego czasu do odzyskania
- Jak niezawodne monitorowanie zapewnia wysoką dostępność dla kanału informacyjnego LinkedIn
- Redukcja średniego czasu do odzyskania i fałszywych eskalacji: Korelacja zdarzeń w serwisie LinkedIn
Rozwiązania i reguły
- Dostępność — myślenie nie tylko o dziewiątkach
- Modele mentalne dla inżynierów niezawodności lokacji
- Priorytetyzowanie zaufania podczas tworzenia aplikacji
- Język Java nienawidzi systemu Linux. Pogódź się z tym.
- Charakteryzowanie faz rozwiązań inżynierii niezawodności lokacji i informacje o nich
- Bezpieczeństwo i inżynieria niezawodności lokacji: Naturalne mnożniki siły
- Przegląd ulepszeń produkcji: Obniżanie długu naprawy
- Zapewnianie niezawodności aplikacji o wysokiej wydajności
- Karta wyników usługi — grywalizowanie doskonałości operacyjnej
- Jak ulepszyć usługę, krytykując ją
Zespoły i zarządzanie
- Kod żółty: Inteligentne pomaganie zespołom skupiającym się na operacjach
- Kierowanie bez zarządzania: Stawanie się liderem technicznym inżynierii niezawodności lokacji
- Różnice w implementacjach inżynierii niezawodności lokacji w różnych firmach
- 100 zespołów, 100 przyczyn niepowodzeń
- Wszystko, co trzeba wiedzieć o rozpoczynaniu zaangażowania w inżynierię niezawodności lokacji
- Budowanie zespołów inżynierii niezawodności lokacji i kierowanie nimi
- Od studenta do inżyniera niezawodności lokacji: Dołączanie pracowników bez doświadczenia
- Inżynieria niezawodności lokacji w serwisie LinkedIn: Od wprowadzenia po skalę globalną
- Składanie sekwencji DNA inżynierii niezawodności lokacji w największej firmie tworzącej oprogramowanie na świecie
- Transformacja gąsienic warstwy 1 w motyle
Narzędzia i technologie
- Azure SREBot: Coś więcej niż czatbot — inteligentny bot minimalizujący czas ograniczania ryzyka
- TrafficShift: Unikanie awarii na dużą skalę
- Tworzymy rozproszony system plików
- TCP — architektura, ulepszenia i dostrajanie
- BGP — szkielet Internetu
- Operacje w środowisku bezserwerowym
- Jak przeskalowaliśmy infrastrukturę bazy danych za pomocą platformy Kafka
- Sieci dla inżynierów niezawodności lokacji: Co muszę wiedzieć o rozwiązywaniu problemów z aplikacjami
- Ambry — rozproszony niezmienny magazyn obiektów serwisu LinkedIn
- BPerf — profilowanie w chmurze Bing.com w środowisku produkcyjnym
- DNS: Stare rozwiązanie nowoczesnych problemów
- Sterowanie ruchem przy użyciu systemu DNS w oparciu o rzeczywiste pomiary użytkowników w serwisie LinkedIn
Skalowanie
- Prognozowanie ruchu i testowanie przeciążeniowe infrastruktury
- Uczenie na dużą skalę jest trudne! Analiza wzorców awarii przestojów i zanieczyszczone dane
- Skalowanie rozproszonego systemu stanowego: Analiza przypadku serwisu LinkedIn
- Debugowanie na dużą skalę — przechodzenie z jednego komputera do środowiska produkcyjnego
- Tworzenie scentralizowanej infrastruktury pamięci podręcznej na dużą skalę
- Skalowalne kodowanie — znajdowanie błędów
- Zarządzanie pojemnością w serwisie LinkedIn
- InStream: Dystrybucja na dużą skalę przy użyciu protokołu BitTorrent, języka Python, programu Salt i platformy Kafka
- Unikanie więzienia pojemności i uciekanie z niego
- Ewolucja globalnego routingu ruchu i trybu failover