O que é a SRE e por que é importante?
A melhor forma de começar é, muitas vezes, pelo princípio. Vamos começar por fazer a pergunta básica "O que é a Engenharia de Fiabilidade do Site?" Existem muitas respostas a esta pergunta, incluindo a frequentemente citada pela pessoa que cunhou o termo (Ben Treynor Sloss no Google), mas a resposta mais prática que podemos oferecer é:
A Engenharia de Fiabilidade do Site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar, de forma sustentável, o nível de fiabilidade adequado nos seus sistemas, serviços e produtos.
Posteriormente, podemos apresentar outras definições, mas vamos começar a partir daqui. Há três partes cruciais nesta definição que precisamos de descompactar que nos levam diretamente ao "Porque é que importa?" .
Fiabilidade
No centro (e no meio do nome "SRE") está a palavra Fiabilidade. A definição não diz "nível de desempenho adequado", "nível de eficiência adequado", "nível de estabilidade adequado" ou mesmo "alcançar o nível de receita adequado". Diz "nível de fiabilidade adequado". Porquê?
Vamos ver uma demonstração rápida. Eis uma captura de ecrã. O que achas que está a mostrar? Tente não avançar até ter uma ideia ou desistir. Nota: se for difícil detetar muitos detalhes nesta imagem, está a compor perfeitamente no browser.
Esta imagem é uma captura de ecrã do aspeto de uma aplicação PHP (sem outro suporte de depuração adicionado) quando falha. Poderá ver algo assim numa aplicação Java:
Porque estamos a ver estes exemplos? Cada uma delas representa uma aplicação que levou potencialmente uma enorme quantidade de tempo, energia e recursos a uma empresa a criar. No entanto, se a aplicação não estiver operacional quando um cliente precisar de aceder à mesma – se não for fiável – não é uma mais-valia para ninguém, sobretudo para a empresa. Na verdade, a falta de fiabilidade pode causar danos reais (reputacionais, económicos, contratuais, morais, etc.) a uma empresa.
Esta importância é a razão pela qual a SRE opta por se concentrar na fiabilidade como uma propriedade fundamental, talvez a propriedade fundamental do serviço, sistema ou produto. A fiabilidade pode abranger muitas coisas (como discutimos mais tarde), mas vamos passar para a segunda parte crucial da definição.
Níveis de fiabilidade adequados
Pode não a ter detetado na primeira vez que leu a definição, mas vamos realçar outra palavra importante:
A Engenharia de Fiabilidade do Site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar de forma sustentável o nível adequado de fiabilidade nos seus sistemas, serviços e produtos.
Por que motivo é essa palavra tão importante?
Uma observação importante feita no mundo da SRE é que existem poucos sistemas e serviços que têm de ser 100% fiáveis. Situações de vida e morte como aviação, dispositivos médicos, etc. são uma exceção notável.
Na verdade, há poucas situações em que é até desejável. O esforço e os recursos (e, por conseguinte, o custo) necessários para garantir uma maior fiabilidade aumenta a uma taxa acentuada à medida que é procurada uma maior fiabilidade. Dito de outra forma, perseguir a fiabilidade de que não precisa é uma perda de tempo e dinheiro. Quer alcançar o nível de fiabilidade adequado no seu sistema, serviços e produtos.
O nível tem de corresponder às necessidades empresariais e ser pragmático. Por exemplo, os nossos clientes podem ligar-se a si através de uma rede que não seja 100% fiável (digamos que subiu 90% das vezes). Gastar o esforço e o dinheiro para garantir que o seu serviço é 95% fiável é, por definição, uma perda de tempo e dinheiro. Quer alcançar o nível de fiabilidade adequado no seu sistema, serviços e produtos.
A SRE leva este pragmatismo um passo mais à frente. Se agora podemos pensar que existe um nível de fiabilidade desejável, há algo que devemos fazer se tivermos sucesso na reunião ou ultrapassarmos esse nível? Da mesma forma, e se não o alcançarmos? Respondemos a estas perguntas mais à frente no módulo.
Alcançar de forma sustentável
A palavra final da nossa definição que temos de destacar antes de avançarmos é sustentável. De forma sustentável refere-se ao papel das pessoas. É crucial criarmos uma prática de operações sustentáveis. Pessoas criar sistemas, serviços e produtos fiáveis. Se não fizermos coisas para garantir que o nosso trabalho é sustentável. Se acordarmos o nosso pessoal às 3:00 todas as noites com uma página e não lhes dermos tempo com a família. Se não tiverem a oportunidade de passar tempo a cuidar de si mesmos. Depois, não é possível que consigam criar sistemas fiáveis. A SRE considera fundamental implementarmos uma prática de operações sustentável ao longo do tempo, para que as nossas pessoas possam dar o seu melhor ao trabalho.
Verifique o seu conhecimento
Precisa de ajuda? Veja o nosso guia de resolução de problemas ou faça comentários específicos ao comunicar um problema.