Documentation sur l’ingénierie SRE
L’ingénierie SRE (Site Reliability Engineering) est une discipline d’ingénierie qui sert à aider les organisations à atteindre durablement un niveau de fiabilité approprié dans leurs systèmes, services et produits.
Amélioration de la fiabilité avec des pratiques pour les opérations modernes
Cours en ligne sur l’ingénierie SRE
Ressources sur l’ingénierie SRE
Ingénierie SRE sur Azure
Documentation pour les ingénieurs SRE
Architecture
Provisionnement et remise
Mise à l'échelle
Microsoft parle de l’ingénierie SRE
Culture
- Évolution de l’ingénierie SRE
- Création d’une ingénierie SRE : Mélange des cultures
- Nuance culturelle et collaboration efficace pour les équipes multiculturelles
- Évolution de l’ingénierie SRE et besoin grandissant de catalyseurs SRE
- Boucles de feedback : Avantage des ingénieurs SRE et ce qu’il faut pour réaliser leur potentiel
- La compréhension des métriques métier peut faire de vous un meilleur ingénieur SRE
- L’histoire sans fin de la fiabilité des sites
- C’est tous les jours lundi pour les opérations
Réponse aux incidents et révisions post-incident
Supervision et observabilité
- Plus de 600 millions de membres et des centaines de microservices : Comment nous avons adapté notre système de surveillance pour suivre
- Hors des chemins battus : Déplacer le focus d’observabilité de votre service vers votre client
- Vous avez ce que vous mesurez — pourquoi les métriques sont importantes
- Réchapper de l’orage : Comment les premiers avertissements sauvent les meubles
- Capture et analyse de millions de requêtes sans surcharge
- Corrélation des événements : Nouvelle approche pour réduire le temps moyen de réparation
- Comment une surveillance robuste participe à la haute disponibilité pour le flux LinkedIn
- Réduction du temps moyen de réparation et des escalades inutiles : Corrélation des événements sur LinkedIn
Pratiques et principes
- Disponibilité — Penser au-delà de 9
- Modèles mentaux pour les ingénieurs SRE
- Privilégier la confiance lors de la création d’applications
- Java déteste Linux. Faites avec.
- Description et compréhension des phases des pratiques de l’ingénierie SRE
- Sécurité et ingénierie SRE : Multiplicateurs de force naturelle
- Révision de l’amélioration de la production : Alléger un peu la dette de réparation
- Garantir la fiabilité des applications hautes performances
- Note d’évaluation des services — Quand l’excellence des opérations devient un jeu
- Comment améliorer un service en le passant au peigne fin
Équipes et management
- Alerte rouge : Aider intelligemment les grosses équipes responsables des opérations
- Diriger sans gérer : Devenir responsable technique SRE
- Différences dans les implémentations de l’ingénierie SRE dans les entreprises
- 100 équipes, 100 façons d’échouer
- Pourquoi, quand et comment démarrer un engagement avec un ingénieur SRE
- Création et gestion d’équipes d’ingénieurs SRE
- D’étudiant à ingénieur SRE : Intégration de vos talents d’entrée de gamme
- Ingénierie SRE chez LinkedIn : De la création à l’échelle mondiale
- Montage des séquences de l’ADN de SRE dans la plus grande entreprise de logiciels au monde
- Transformation des chenilles de niveau 1 en papillons
Outils et technologies
- Azure SREBot : Plus qu’un chatbot — un bot intelligent pour réduire à néant le temps d’atténuation
- TrafficShift : Éviter les catastrophes à grande échelle
- Créons un système de fichiers distribué
- TCP — Architecture, améliorations et réglages
- BGP — La colonne vertébrale d’Internet
- Les opérations en serverless
- Comment nous avons utilisé Kafka pour mettre à l’échelle une infrastructure de base de données
- Réseaux pour les ingénieurs SRE : Ce que je dois savoir pour dépanner les applications
- Ambry — Le magasin d’objets immuable distribué de LinkedIn
- BPerf — Profilage cloud Bing.com en production
- DNS : Ancienne solution pour nouveaux problèmes
- Pilotage du trafic avec le DNS RUM @ LinkedIn
Mise à l'échelle
- Infrastructure des prévisions du trafic et des tests de contrainte
- L’apprentissage à grande échelle est dur ! Analyse des schémas de panne et données sales
- Mise à l’échelle d’un système avec état distribué : Étude de cas LinkedIn
- Débogage à grande échelle — Passer d’une seule zone de dev à la production
- Création d’une infrastructure de mise en cache centralisée à grande échelle
- Programmation scalable — Chercher l’erreur
- Gestion de la capacité @ LinkedIn
- InStream : Distribution à grande échelle avec BitTorrent, Python, Salt et Kafka
- Éviter et sortir de l’enfermement des capacités
- Évolution du routage du trafic global et du basculement