Documentação de engenharia de fiabilidade do local
A engenharia de fiabilidade do local é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar de forma sustentável o nível adequado de fiabilidade nos seus sistemas, serviços e produtos.
Melhorar a Fiabilidade através de Práticas de Operações Modernas
SRE no Azure
Documentação para SREs
Arquitetura
Aprovisionamento e Entrega
SRE fala a partir da Microsoft
Cultura
- A Evolução da Engenharia de Fiabilidade do Local
- Criar SRE: Cultura do Exterior para o Interior
- Nuance Cultural e Colaboração Eficaz para Equipas Multiculturais
- Evolução do SRE e Crescente Necessidade de Catalizadores de SRE
- Ciclos de Comentários: De que forma os SREs Beneficiam e o Que É Necessário para Perceber o Seu Potencial
- Compreender as Métricas Empresariais pode Torná-lo um SRE Melhor
- A História Interminável da Fiabilidade do Local
- Todos os Dias São Segundas-Feiras nas Operações
Monitorização e Observabilidade
- Mais de 600 Milhões de Membros e Centenas de Microsserviços: Como Dimensionámos o Nosso Sistema de Monitorização para Mantê-lo Atualizado
- Fora do Caminho Habitual: Mover o Foco da Observabilidade do Serviço para o Cliente
- Obtém Aquilo Que Mede: Importância das Métricas
- Resistir à Tempestade: De Que Forma os Avisos Antecipados Salvam o Farm
- Capturar e Analisar Milhões de Consultas Sem Sobrecarga
- Correlação de Eventos: Nova Abordagem Para Reduzir o MTTR
- De Que Forma a Monitorização Avançada Capacita a Elevada Disponibilidade do Feed do LinkedIn
- Reduzir o MTTR e os Falsos Escalamentos: Correlação de Eventos no LinkedIn
Práticas e Princípios
- Disponibilidade: Pensar além dos 9s
- Modelos Mentais para SREs
- Prioritizar a Confiança ao Criar Aplicações
- Java Odeia Linux. Lide com isso.
- Caraterizar e Compreender as Fases das Práticas de SRE
- Segurança e SRE: Multiplicadores de Força Natural
- Revisão do Melhoramento da Produção: Analisar a Dívida de Reparação
- Garantir a Fiabilidade das Aplicações de Elevado Desempenho
- O Cartão de Classificação do Serviço: Gamificação da Excelência Operacional
- Como Melhorar um Serviço Criticando-o
Equipas e Gestão
- Código Amarelo: Ajudar as Equipas de Operações Desproporcionais com Inteligência
- Liderar sem Gestão: Tornar-se um Líder Técnico SRE
- Diferenças nas Implementações de SRE nas Empresas
- 100 Equipas, 100 Formas de Falhar
- Porquê, O Quê e Como Iniciar um Compromisso de SRE
- Criar e Lidar com Equipas de SRE
- Estudante Universitário para SRE: Integrar o Seu Talento de Nível de Entrada
- SRE no LinkedIn: Do Início à Escala Global
- Unir Sequências de ADN SRE na Maior Empresa de Software do Planeta
- Transformar Lagartas de Escalão 1 em Borboletas
Ferramentas e Tecnologias
- Azure SREBot: Mais de um Chatbot, um Bot Inteligente para Esmagar o Tempo de Mitigação
- TrafficShift: Evitar Desastres em Escala
- Criar um Sistema de Ficheiros Distribuído
- TCP: Arquitetura, Melhoramentos e Otimização
- BGP: a Espinha Dorsal da Internet
- Operações Sem Servidor
- Como Utilizámos o Kafka para Dimensionar a Infraestrutura de Base de Dados
- Redes para SREs: O Que É Necessário Saber para Resolver Problemas de Aplicações
- Ambry: Loja de Objetos Imutável Distribuída do LinkedIn
- BPerf: Criação de Perfis em Produção na Cloud do Bing.com
- DNS: Solução Antiga para Problemas Modernos
- Orientação do Tráfego com Rum DNS @ LinkedIn
Dimensionamento
- Infraestrutura de Testes de Stress e Previsão de Tráfego
- Aprender em Escala É Difícil! Análise de Padrões de Indisponibilidade e Dados Não Consolidados
- Dimensionar um Sistema Com Estado Distribuído: Caso Prático do LinkedIn
- Depuração em Escala: de Caixa Única à Produção
- Criar uma Infraestrutura de Colocação em Cache Centralizada em Escala
- Codificação Dimensionável: Encontrar o Erro
- Capacidade de Gestão @ LinkedIn
- InStream: Distribuição em Larga Escala com BitTorrent, Python, Salt e Kafka
- Evitar e Sair da Prisão de Capacidade
- A Evolução do Encaminhamento Global de Tráfego e Ativação Pós-falha