O que é a SRE e por que motivo é importante?

Concluído

A melhor forma de começar é, muitas vezes, pelo princípio. Vamos começar por fazer a pergunta básica "O que é a Engenharia de Fiabilidade do Site?" Há muitas respostas para esta pergunta circulando, incluindo a frequentemente citada pela pessoa que cunhou o termo (Ben Treynor Sloss no Google), mas a resposta mais prática que podemos oferecer é:

A Engenharia de Fiabilidade do Site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar, de forma sustentável, o nível de fiabilidade adequado nos seus sistemas, serviços e produtos.

Posteriormente, podemos apresentar outras definições, mas vamos começar a partir daqui. Há três partes cruciais nesta definição que precisamos descompactar que nos levam diretamente ao "Por que isso importa?" .

Fiabilidade

No centro (e no meio do nome "SRE") está a palavra Fiabilidade. A definição não diz "nível de desempenho adequado", "nível de eficiência adequado", "nível de estabilidade adequado" ou mesmo "alcançar o nível de receita adequado". Diz "nível de fiabilidade adequado". Porquê?

Vamos ver uma demonstração rápida. Eis uma captura de ecrã. O que você acha que está mostrando? Tente não avançar até ter uma ideia ou desistir. Observação: se for difícil detetar muitos detalhes nesta imagem, tudo bem, ela está renderizando perfeitamente em seu navegador.

A blank screenshot representing a PHP app that fails to load.

Esta imagem é uma captura de ecrã do aspeto de uma aplicação PHP (sem outro suporte de depuração adicionado) quando falha. Poderá ver algo assim numa aplicação Java:

A screenshot of failed java app with HTTPS Status 500 error.

Por que estamos a ver estes exemplos? Cada um deles representa uma aplicação que demorou potencialmente uma enorme quantidade de tempo empresarial, energia e recursos a criar. No entanto, se a aplicação não estiver operacional quando um cliente precisar de aceder à mesma – se não for fiável – não é uma mais-valia para ninguém, sobretudo para a empresa. Na verdade, a falta de fiabilidade pode causar danos reais (reputacionais, económicos, contratuais, morais, etc.) a uma empresa.

Essa importância é a razão pela qual a SRE opta por focar na confiabilidade como uma propriedade fundamental, talvez a propriedade fundamental do serviço, sistema ou produto. A confiabilidade pode abranger muitas coisas (como discutiremos mais adiante), mas vamos passar para a segunda parte crucial da definição.

Níveis de fiabilidade adequados

Pode não a ter detetado na primeira vez que leu a definição, mas vamos realçar outra palavra importante:

A Engenharia de Fiabilidade do Site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar, de forma sustentável, o nível de fiabilidade adequado nos seus sistemas, serviços e produtos.

Por que motivo é essa palavra tão importante?

Uma observação importante feita no mundo SRE é que existem poucos sistemas e serviços que precisam ser 100% confiáveis. Situações de vida e morte como aviação, dispositivos médicos, etc. são uma exceção notável.

Na verdade, são poucas as situações em que é mesmo desejável. O esforço e os recursos (e, por conseguinte, o custo) necessários para garantir uma maior fiabilidade aumenta a uma taxa acentuada à medida que é procurada uma maior fiabilidade. Dito de outra forma, correr atrás da confiabilidade que você não precisa é um desperdício de tempo e dinheiro. Quer alcançar o nível de fiabilidade adequado no seu sistema, serviços e produtos.

O nível tem de corresponder às necessidades empresariais e ser pragmático. Por exemplo, nossos clientes podem se conectar a você por meio de uma rede que não é 100% confiável (digamos que seja 90% do tempo). Gastar o esforço e o dinheiro para garantir que seu serviço seja 95% confiável é, por definição, um desperdício de tempo e dinheiro. Quer alcançar o nível de fiabilidade adequado no seu sistema, serviços e produtos.

A SRE leva este pragmatismo um passo mais à frente. Se agora podemos pensar em haver um nível desejável de confiabilidade, há algo que devemos fazer se formos bem-sucedidos em atingir ou superar esse nível? Da mesma forma, e se não o alcançarmos? Respondemos a estas perguntas mais adiante no módulo.

Alcançar de forma sustentável

A palavra final da nossa definição que temos de destacar antes de avançarmos é sustentável. Sustentavelmente refere-se ao papel das pessoas. É crucial criarmos uma prática de operações sustentável. As pessoas constroem sistemas, serviços e produtos confiáveis. Se não fizermos coisas para garantir que o nosso trabalho é sustentável. Se acordarmos o nosso povo às 3:00 da manhã todas as noites com uma página, e não lhes dermos tempo com a família. Se eles não têm a oportunidade de gastar tempo cuidando de si mesmos. Então, não há como eles serem capazes de construir sistemas confiáveis. A SRE acredita que é fundamental implementarmos uma prática de operações que seja sustentável ao longo do tempo, para que nossos funcionários possam trazer o seu melhor para o trabalho.

Verifique o seu conhecimento

1.

Que propriedade de um serviço, sistema ou produto se concentra principalmente a SRE?

2.

Para quase todos os serviços, sistemas e produtos, qual é o nível de fiabilidade pretendido por uma SRE?