Documentation sur l’ingénierie SRE
L’ingénierie de fiabilité des sites est une discipline d’ingénierie ayant pour vocation d’aider une organisation à atteindre durablement le niveau de fiabilité approprié dans ses systèmes, ses produits et ses services.
Amélioration de la fiabilité avec des pratiques pour les opérations modernes
Cours en ligne sur l’ingénierie SRE
Ressources sur l’ingénierie SRE
Documentation pour les ingénieurs SRE
Architecture
Provisionnement et remise
Mise à l'échelle
culture
- Évolution de l’ingénierie SRE
- Développer la SRE : une culture bâtie de l’extérieur vers l’intérieur
- Nuance culturelle et collaboration efficace pour les équipes multiculturelles
- Évolution de l’ingénierie SRE et besoin grandissant de catalyseurs SRE
- Boucles de rétroaction : les avantages pour les SRE et les éléments nécessaires pour exploiter leur potentiel
- La compréhension des métriques métier peut faire de vous un meilleur ingénieur SRE
- L’histoire sans fin de la fiabilité des sites
- C’est tous les jours lundi pour les opérations
Réponse aux incidents et révisions post-incident
Supervision et observabilité
- Plus de 600 millions de membres et des centaines de micro-services : comment nous avons adapté notre système de surveillance pour rester à la hauteur
- Hors des sentiers battus : déplacez l'observabilité de votre service vers votre client
- Vous avez ce que vous mesurez — pourquoi les métriques sont importantes
- Surmonter la tempête : comment les alertes précoces sauvent la ferme
- Capture et analyse de millions de requêtes sans surcharge
- Corrélation des événements : une nouvelle approche pour réduire le MTTR
- Comment une surveillance robuste participe à la haute disponibilité pour le flux LinkedIn
- Réduire le MTTR et les fausses escalades : corrélation des événements sur LinkedIn
Pratiques et principes
- Disponibilité — Penser au-delà de 9
- Modèles mentaux pour les ingénieurs SRE
- Privilégier la confiance lors de la création d’applications
- Java déteste Linux. Faites avec.
- Description et compréhension des phases des pratiques de l’ingénierie SRE
- Sécurité et SRE : multiplicateurs de forces naturelles
- Examen de l'amélioration de la production : réduire la dette de réparation
- Garantir la fiabilité des applications hautes performances
- Note d’évaluation des services — Quand l’excellence des opérations devient un jeu
- Comment améliorer un service en le passant au peigne fin
Équipes et management
- Code jaune : aider intelligemment les équipes opérationnelles à forte charge de travail
- Diriger sans gérer : devenir un leader technique SRE
- Différences dans les implémentations de l’ingénierie SRE dans les entreprises
- 100 équipes, 100 façons d’échouer
- Pourquoi, quand et comment démarrer un engagement avec un ingénieur SRE
- Création et gestion d’équipes d’ingénieurs SRE
- Étudiant du Collège à SRE : intégration de votre talent de niveau d’entrée
- LinkedIn SRE : de sa création à sa dimension mondiale
- Montage des séquences de l’ADN de SRE dans la plus grande entreprise de logiciels au monde
- Transformation des chenilles de niveau 1 en papillons
Outils et technologies
- Azure SREBot : Plus qu’un Chatbot — un bot intelligent pour réduire à néant le temps d’atténuation
- TrafficShift : éviter les catastrophes à grande échelle
- Créons un système de fichiers distribué
- TCP — Architecture, améliorations et réglages
- BGP — La colonne vertébrale d’Internet
- Les opérations en serverless
- Comment nous avons utilisé Kafka pour mettre à l’échelle une infrastructure de base de données
- Réseaux pour les SRE : que dois-je savoir pour résoudre les problèmes des applications
- Ambry — Le magasin d’objets immuable distribué de LinkedIn
- BPerf — Profilage cloud Bing.com en production
- DNS : une ancienne solution pour des problèmes modernes
- Pilotage du trafic avec le DNS RUM @ LinkedIn
Mise à l'échelle
- Infrastructure des prévisions du trafic et des tests de contrainte
- L’apprentissage à grande échelle est dur ! Analyse des schémas de panne et données sales
- Mise à l'échelle d'un système distribué à état : une étude de cas LinkedIn
- Débogage à grande échelle — Passer d’une seule zone de dev à la production
- Création d’une infrastructure de mise en cache centralisée à grande échelle
- Programmation scalable — Chercher l’erreur
- Gestion de la capacité @ LinkedIn
- InStream : distribution à grande échelle à l'aide de BitTorrent, Python, Salt et Kafka
- Éviter et sortir de l’enfermement des capacités
- Évolution du routage du trafic global et du basculement