Prinsip dan praktik SRE utama: Sisi manusiawi SRE

Selesai

Proses operasi yang berhasil adalah proses yang mencapai keandalan yang diinginkan dan mempertahankannya. Proses seperti itu sama tergantung pada bagaimana ia memperlakukan manusia yang bertanggung jawab atas lingkungan itu karena tergantung pada bagaimana ia memperlakukan mesin. Rekayasa keandalan situs mengakui kebenaran ini dalam banyak hal yang sangat penting untuk praktiknya.

Kerja keras

Yang pertama adalah fokus pada gagasan dari “kerja keras”. Dalam konteks SRE, kerja keras mengacu pada pekerjaan operasi yang dilakukan oleh manusia yang memiliki karakteristik tertentu. Toil tidak memiliki nilai penukaran jangka panjang. Toil tidak memajukan layanan dengan cara apa pun yang berarti. Ini sering berulang dan sebagian besar manual (meskipun bisa otomatis). Ketika layanan atau sistem semakin besar dari waktu ke waktu, jumlah permintaan untuk sistem itu juga mungkin akan meningkat dalam jumlah dengan tingkat proporsional dan membutuhkan lebih banyak tenaga kerja manual.

Misalnya, layanan mungkin mengharuskan tim SRE untuk menimbulkan beban operasional seperti ini yang dianggap toil:

  • Mengatur ulang sesuatu setiap minggu.
  • Menyediakan akun baru dan ruang disk secara manual.
  • Berulang kali memulai ulang proses dengan tangan.

Menyelesaikan tindakan ini tidak membuat layanan lebih baik dengan cara jangka panjang dan persisten. Kemungkinan juga tindakan ini harus diulang berulang kali.

Catatan

Bahkan jika Anda menyimpan permintaan semacam ini dalam semacam sistem tiket seperti yang dilakukan banyak tempat, melakukan tindakan dan menyelesaikan tiket masih melelahkan. Hal ini hanya merupakan kerja keras yang terlacak dengan baik.

SRes adalah jawaban atas pekerjaan yang melelahkan ini. Layanan ini bekerja untuk menyingkirkan toil bila memungkinkan dan tepat. Tujuan ini adalah salah satu tempat otomatisasi mulai dimainkan di SRE. Jika permintaan ini dapat ditangani secara otomatis, hal tersebut akan membebaskan tim untuk mengerjakan hal-hal yang lebih bermanfaat dan berdampak daripada menghabiskan antrean permintaan.

Penggunaan kata "sesuai" dalam kaitannya dengan toil mirip dengan penggunaannya sekeliling keandalan. Ada situasi saat pekerjaan penghapusan kerja keras memiliki prioritas lebih rendah daripada pekerjaan lain, tetapi secara keseluruhan, menghilangkan kerja keras dari layanan adalah fokus utama bagi SRE.

Pekerjaan proyek vs. pekerjaan "operasi" reaktif

Untuk melakukan pekerjaan yang diperlukan untuk menghapus toil, atau meningkatkan keandalan sistem, waktu SRE harus dialokasikan dengan tepat. Mereka ingin memastikan bahwa mereka tidak menghabiskan semua waktu mereka pemadam kebakaran, membalas halaman, atau hanya memproses antrean tiket. SRE perlu menyisihkan waktu untuk menulis kode guna menghilangkan kerja keras, membangun otomatisasi layanan mandiri sehingga tiket tidak diperlukan, membangun proyek yang membuat layanan dan orang-orang lebih efisien. Angka yang biasanya dikutip (yang berasal dari model Google asli) adalah salah satu dari beban operasional tim yang tidak lebih dari 50%.

Catatan

50% adalah angka yang agak arbitrer, tetapi dalam praktiknya angka tersebut tampaknya berfungsi sebagai tujuan yang masuk akal bagi banyak orang.

Ada saat-saat dalam kehidupan SRE ketika seluruh waktu mereka dikhususkan untuk menyelesaikan masalah, tetapi hal tersebut tidak dapat menjadi status yang stabil. Jika pekerjaan "operasi" reaktif tim (sebagian besar kerja keras) menghabiskan lebih dari 50% waktu mereka untuk waktu yang lama, hal tersebut merupakan resep kelelahan dan keandalan yang buruk. Dalam situasi ini, siklus berbudi luhur yang kita bahas sebelumnya tidak dapat beroperasi atau dibangun. SRE juga memperhatikan beban on-call yang seimbang dengan buruk karena itu juga memiliki potensi dampak negatif yang kuat pada tim.

Sekarang setelah kita memiliki kesempatan untuk melihat beberapa praktik dan prinsip inti SRE, mari kita membahas sedikit tentang cara memulai.

Uji pengetahuan Anda

1.

Dari hal-hal ini, mana yang bukan merupakan karakteristik dari kerja keras (dalam konteks SRE)?

2.

Apa hubungan SRE dengan kerja keras?

3.

Apa rincian pekerjaan yang disarankan untuk SRE?