Documentação da engenharia de confiabilidade de sites
A engenharia de confiabilidade de site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar de maneira sustentável o nível de confiabilidade apropriado em sistemas, serviços e produtos.
Como aprimorar a confiabilidade por meio de práticas de operações modernas
Recursos da SRE
SRE no Azure
Documentação de SREs
Arquitetura
Provisionamento e entrega
Palestras da Microsoft sobre SRE
Cultura
- A evolução da engenharia de confiabilidade de sites
- Construindo SRE: Cultura de fora para dentro
- Nuance cultural e colaboração efetiva para equipes multiculturais
- Evolução da SRE e a crescente necessidade de catalizadores de SRE
- Ciclos de feedback: como os SREs se beneficiam e o que é necessário para realizar seu potencial
- Entender as métricas de negócios pode tornar você um SRE melhor
- A história sem fim da confiabilidade de sites
- Todo dia é segunda-feira nas operações
Monitoramento e observabilidade
- Mais de 600 milhões de membros e centenas de microsserviços: como escalamos nosso sistema de monitoramento para acompanhar
- Fora do caminho batido: movendo o foco de observabilidade do seu serviço para o seu cliente
- Você obtém o que mede: por que as métricas são importantes
- Resistindo à tempestade: como os avisos antecipados salvam a fazenda
- Captura e análise de milhões de consultas sem nenhuma sobrecarga
- Correlação de eventos: uma nova abordagem para reduzir o MTTR
- Como o monitoramento robusto capacita a alta disponibilidade para o feed do LinkedIn
- Reduzindo MTTR e escalonamentos falsos: correlação de eventos no Linkedin
Práticas e princípios
- Disponibilidade: como pensar além dos noves
- Modelos mentais para SREs
- Como priorizar a confiança durante a criação de aplicativos
- O Java odeia o Linux. Lide com isso.
- Como caracterizar e entender as fases das práticas de SRE
- Segurança e SRE: Multiplicadores de Força Natural
- Revisão da melhoria da produção: Tirando uma mordida da dívida de reparo
- Garantia da confiabilidade de aplicativos de alto desempenho
- O cartão de pontuação de serviço: como transformar a excelência operacional em um jogo
- Como aprimorar um serviço criticando-o
Equipes e gerenciamento
- Code-Yellow: Ajudando as equipes de alto nível de operações da maneira inteligente
- Liderando sem gerenciar: tornando-se um líder técnico de SRE
- Diferenças nas implementações de SRE entre empresas
- 100 equipes, 100 maneiras de fracassar
- O "por quê", o "o quê" e o "como" do começo de uma participação com a SRE
- Como criar e administrar equipes de SRE
- Estudante universitário para SRE: Integrando seu talento de nível básico
- LinkedIn SRE: do início à escala global
- Como entrelaçar sequências de DNA de SRE na maior empresa de software do planeta
- Como transformar lagartas da camada 1 em borboletas
Ferramentas e tecnologias
- SREBot do Azure: mais do que um chatbot — um bot inteligente para esmagar o tempo de mitigação
- TrafficShift: Evitando desastres em escala
- Vamos criar um Sistema de Arquivos Distribuído
- TCP: arquitetura, melhorias e ajuste
- BGP: o backbone da Internet
- As operações em modelos sem servidor
- Como usamos o Kafka para dimensionar a infraestrutura do banco de dados
- Redes para SREs: o que preciso saber para solucionar problemas de aplicativos
- Ambry: repositório distribuído de objetos imutáveis do LinkedIn
- BPerf: criação de perfil de nuvem do Bing.com em produção
- DNS: Solução antiga para problemas modernos
- Gestão de tráfego com o Rum DNS no LinkedIn
Scaling
- Previsão de tráfego e infraestrutura do teste de estresse
- O aprendizado em escala é difícil! Análise de padrões de interrupção e dados sujos
- Dimensionando um sistema com monitoração de estado distribuído: um estudo de caso do LinkedIn
- Depuração em escala: como migrar de caixa única para produção
- Como criar uma infraestrutura de cache centralizada em escala
- Codificação escalonável: localizar o erro
- Como gerenciar a capacidade no LinkedIn
- InStream: Distribuição em larga escala usando BitTorrent, Python, Salt e Kafka
- Como evitar e livrar-se da prisão da capacidade
- A evolução do roteamento de tráfego global e do failover