Introdução à SRE
Uma vez que esta é a unidade final neste módulo, vamos abordar que caminhos pode seguir se estiver interessado em explorar a SRE.
Ler e observar
Para obter informações mais detalhadas sobre a SRE, recomendamos três livros que foram publicados sobre este tema
- Site Reliability Engineering: How Google Runs Production Systems (conhecido como “O Manual de SRE”)
- The Site Reliability Workbook: Practical Ways to Implement SRE (conhecido como “O Livro de SRE”)
- Seeking SRE: Conversations About Running Production Systems at Scale
(Informamos que o autor principal deste módulo é o curador/editor do terceiro livro.)
Cada um destes livros fornece um conjunto importante de informações:
O Manual de SRE – apresenta uma explicação detalhada de como o Google implementou a SRE ao longo dos anos.
O Livro de SRE – um complemento do Manual de SRE que apresenta uma explicação mais detalhada não só do “como” da SRE no Google e em mais alguns locais, mas também do “como” e do “porquê”.
{i> Seeking SRE<i} – apresenta uma visão mais abrangente do mundo da SRE além da sua origem, incluindo informações sobre como foi implementada noutros ambientes.
Não se esqueça de ler estes três livros com um olhar crítico. Nem tudo o que está escrito nestes livros pode aplicar-se a si e à sua organização. Dedure algum tempo para identificar as informações de que tem a certeza que podem fornecer algum valor positivo. Pense nas partes da cultura e dos valores da sua organização que podem suportar o trabalho de SRE conforme descrito e que o poderão tornar mais desafiador.
Se achar que é mais uma pessoa visual, experimente ver a conversa Keys to SRE de Ben Treynor na conferência SREcon14. A Treynor fornece uma explicação coerente sobre o que é a SRE (pelo menos no contexto do Google). Outras conversações gravadas sobre a SRE desta série de conferências e outras também podem ser úteis.
Falar com outras pessoas interessadas
Tão importante como ler sobre a SRE, falar com os seus colegas pode ser ainda mais importante. Ter uma discussão sobre os seus desafios, sucessos e falhas em torno da SRE pode ser crucial para obter uma compreensão matizada do assunto.
Existem muitas reuniões e conferências que incluem conteúdo SRE. Talvez os mais relevantes sejam as conferências SREcon distribuídas globalmente e divulgadas pela USENIX (isenção de responsabilidade: o autor principal deste módulo é um dos cofundadores do SREcon).
Ainda mais conteúdos da SRE estão a chegar a conferências como a Velocity, LISA e conferências locais do DevOps, como o DevOps Days. Procure este conteúdo e outras pessoas interessadas no assunto onde quer que o possa encontrar.
Primeiros passos no trabalho
É importante lembrar que a SRE não é uma proposta "tudo ou nada". Se quiser começar a explorar como trazer a SRE para o seu ambiente, pode começar a adotar princípios e práticas de SRE em pequenos passos.
Mikey Dickerson, é um conhecido SRE baseado no seu trabalho no que viria a ser o Estados Unidos Serviço Digital. Foram responsáveis por salvar healthcare.gov. Propôs uma hierarquia de fiabilidade em homenagem à hierarquia de necessidades do Maslow. É citado na secção Práticas do primeiro livro SRE.
Esta hierarquia propõe que primeiro tenha de obter monitorização funcional e fidedigna no seu ambiente. A monitorização também tem de ser um primeiro passo para a SRE para o seu ambiente. Não será possível dizer se algo é de confiança (ou se está ou não a melhorar) se não for possível fazer uma avaliação.
Assim que tiver uma plataforma de monitorização em que pode confiar, o próximo passo acessível é escolher um serviço no trabalho. Em seguida, comece a ter conversações SLI e SLO sobre o mesmo. Não complique. Crie SLIs e SLOs para o serviço, implemente-os no sistema de monitorização e veja o que acontece quando começar a prestar atenção à fiabilidade com a lente SRE. Estes passos são um ótimo local para começar.
Precisa de ajuda? Veja o nosso guia de resolução de problemas ou faça comentários específicos ao comunicar um problema.