Menetapkan proses manajemen operasi

Saat perusahaan Anda mulai mengoperasikan beban kerja di Azure, langkah berikutnya adalah membuat proses untuk manajemen operasional dan kebugaran. Proses ini menghitung, menerapkan, dan secara iteratif meninjau dan mengoptimalkan status operasional untuk beban kerja ini.

Proses peninjauan kebugaran operasional memastikan bahwa seluruh portofolio beban kerja memenuhi komitmen bisnis terhadap performa, keandalan, dan biaya. Proses ini menyelaraskan upaya tim TI pusat, pusat keunggulan cloud, dan tim beban kerja untuk memberikan keunggulan operasional dalam skala besar.

Menetapkan proses inti untuk peninjauan kebugaran operasional

Buat proses untuk peninjauan kebugaran operasional guna memahami sepenuhnya masalah yang dibuat dari menjalankan beban kerja di lingkungan produksi, dan cara memulihkan dan menyelesaikan masalah tersebut. Artikel ini menguraikan proses tingkat tinggi untuk peninjauan kebugaran operasional yang dapat digunakan perusahaan Anda untuk mencapai tujuan ini.

Kebugaran operasional di Microsoft

Sejak awal, banyak tim di Microsoft terlibat dalam pengembangan platform Azure. Sulit untuk memastikan kualitas dan konsistensi proyek dengan ukuran dan kerumitan seperti itu. Anda memerlukan proses yang kuat untuk menghitung dan menerapkan persyaratan nonfungsional mendasar secara berkala.

Proses yang diikuti Microsoft membentuk dasar untuk proses yang diuraikan dalam artikel ini.

Memahami peran dan model operasi

Manajemen operasi adalah disiplin luas yang melibatkan banyak peran di seluruh perusahaan. Bergantung pada model operasi organisasi, peran tersebut dapat beroperasi dalam lingkungan matriks dengan sejumlah handoff antara tim operasi terpusat dan terdesentralisasi.

  • TI/CCoE Pusat: Fungsi teknologi terpusat ini bertanggung jawab atas konfigurasi, operasi, tata kelola, dan keamanan semua aset teknologi dalam portofolio teknologi.
  • Operasi cloud: Fungsi dalam organisasi teknologi terpusat, fungsi operasi ini mengelola kesehatan dan operasi portofolio teknologi. Adalah tanggung jawab mereka untuk memastikan proses berjalan dengan lancar, bahwa setiap peran yang berdekatan dalam proses memiliki alat yang diperlukan, dan bahwa masing-masing peran berikutnya bertanggung jawab atas ekspektasi proses ini.
  • Strategi cloud: Memberikan pengetahuan tentang bisnis untuk mengidentifikasi dan memprioritaskan komitmen untuk mempertahankan persyaratan operasional dari berbagai beban kerja. Peran ini juga membandingkan biaya mitigasi dengan dampak bisnis, dan mendorong keputusan akhir tentang remediasi.
  • Tim beban kerja: Bertanggung jawab atas pengembangan dan pengoperasian beban kerja rahasia yang dipetakan ke aplikasi, layanan, dan infrastruktur pendukung tertentu, baik di lingkungan lokal maupun cloud. Peran tersebut membutuhkan pengetahuan mendalam tentang arsitektur beban kerja.

Setiap model operasi organisasi menentukan akuntabilitas dan aktivitas sehari-hari dari peran di atas:

  • Operasi terpusat: TI Pusat mempertahankan akuntabilitas penuh untuk operasi. Pemilik beban kerja mungkin memiliki masukan untuk operasi dan konfigurasi, tetapi mereka tidak memiliki akses untuk mengubah lingkungan produksi. Hanya tim operasi TI dan cloud pusat yang dapat memberikan perubahan operasional untuk meningkatkan kebugaran operasional.
  • Operasi terdesentralisasi: Tim beban kerja bertanggung jawab penuh atas operasi, umumnya melalui saluran CI/CD yang matang dan otomatisasi DevOps. Dalam model ini, tidak ada dukungan terpusat untuk konfigurasi, operasi, tata kelola, atau keamanan. Pendekatan operasi ini berada di luar cakupan Cloud Adoption Framework. Model operasi ini akan melihat Azure Well-Architected Framework untuk panduan operasional.
  • Operasi perusahaan: Pusat keunggulan cloud bertanggung jawab atas operasi. Operasi cloud dan tim beban kerja masing-masing berbagi tanggung jawab atas aspek tertentu dari kebugaran operasional.

Tujuan tinjauan

Kebugaran operasional dievaluasi di seluruh portofolio menggunakan beberapa metrik: keandalan, performa, dan biaya. Bersama-sama, properti ini memungkinkan evaluasi cepat kesehatan dan kebugaran semua aset dalam portofolio. Metrik ini dievaluasi di tiga tingkat manajemen operasi.

Elevasi operasi

  • Garis besar operasi (atau garis besar yang disempurnakan): Mengevaluasi kesesuaian operasional di semua aset yang disebarkan terlepas dari fungsinya. Pandangan operasi yang luas ini memungkinkan perubahan menyeluruh dan dampak besar, tetapi dibatasi oleh kurangnya visibilitas ke dalam arsitektur beban kerja individu. Semua sumber daya yang digunakan di cloud harus dicakup oleh garis besar operasi dengan dukungan reguler dari operasi cloud. Beberapa lingkungan mungkin memerlukan tingkat dukungan operasional yang lebih tinggi untuk memenuhi kebutuhan garis besar yang ditingkatkan.
  • Operasi platform: Mengevaluasi kesesuaian operasional platform teknologi terpusat. Pandangan operasi ini lebih disempurnakan karena mempertimbangkan arsitektur platform dan bagaimana perubahan pada solusi akan memengaruhi kebugaran operasional. Perubahan pada platform teknologi pusat dapat memiliki dampak downstream yang luas pada beban kerja yang didukung. Semua platform penting akan menerima dukungan khusus dari tim TI pusat.
  • Operasi beban kerja: Mengevaluasi kesesuaian operasional beban kerja individu. Pandangan operasi ini adalah yang paling halus dan harus dipertimbangkan ketika peningkatan kebugaran operasional memerlukan perubahan arsitektur beban kerja. Pengoperasian beban kerja harus mematuhi prinsip-prinsip Azure Well-Architected Framework. Semua beban kerja penting dengan siklus DevOps aktif akan menerima dukungan khusus dari tim beban kerja.

Tujuan dari tinjauan kebugaran operasional adalah untuk secara berkala mengevaluasi kebugaran operasional di semua tingkatan. Perbaikan yang teridentifikasi kemudian dapat diterapkan pada tingkat yang sesuai untuk menginformasikan perubahan yang diperlukan untuk mengelola keseluruhan portofolio.

Proses untuk tinjauan kebugaran operasional

Kunci untuk menjaga performa dan keberlangsungan portofolio perusahaan adalah dengan menerapkan proses tinjauan kebugaran operasional.

Gambaran umum proses untuk tinjauan kebugaran operasional

Pada tingkat tinggi, proses memiliki dua fase. Pada fase prasyarat, persyaratan ditetapkan dan dipetakan ke layanan pendukung. Fase ini jarang terjadi: mungkin setiap tahun atau ketika operasi baru diperkenalkan. Output dari fase prasyarat digunakan dalam fase alur. Fase alur lebih sering terjadi, seperti bulanan.

Fase prasyarat

Langkah-langkah dalam fase ini mencakup persyaratan untuk melakukan peninjauan rutin terhadap portofolio dan semua beban kerja penting.

  1. Mengidentifikasi operasi bisnis penting. Identifikasi operasi bisnis penting perusahaan berdasarkan komitmen bisnis yang disepakati. Operasi bisnis tidak bergantung pada fungsionalitas layanan pendukung apa pun. Dengan kata lain, operasi bisnis mewakili aktivitas aktual yang perlu dilakukan bisnis dan didukung oleh serangkaian layanan TI.

    Istilah penting (atau penting bagi bisnis) mencerminkan dampak yang parah pada bisnis jika operasi terhambat. Misalnya, peretail online mungkin memiliki operasi bisnis, seperti "memungkinkan pelanggan menambahkan item ke keranjang belanja" atau "memproses pembayaran kartu kredit". Jika salah satu dari operasi ini gagal, pelanggan tidak dapat menyelesaikan transaksi dan perusahaan gagal mendapatkan penjualan.

  2. Memetakan operasi ke layanan. Memetakan operasi bisnis penting ke layanan TI (garis besar, platform, atau operasi beban kerja) yang mendukungnya. Setiap platform teknologi atau beban kerja yang diperlukan untuk mendukung fungsi yang penting bagi bisnis juga harus diidentifikasi untuk memetakan operasi dan layanan ke tim yang bertanggung jawab.

  3. Menganalisa dependensi layanan. Sebagian besar operasi bisnis memerlukan orkestrasi di antara beberapa beban kerja pendukung dan platform teknologi. Sangat penting untuk memahami dependensi antara setiap rangkaian aset pendukung, dan alur transaksi penting melalui layanan ini.

    Pertimbangkan juga dependensi antara layanan lokal dan layanan Azure. Dalam contoh keranjang belanja, layanan manajemen stok inventaris mungkin dihosting di lingkungan lokal dan menyerap data yang dimasukkan oleh karycloud dari gudang fisik. Namun, layanan manajemen stok inventaris juga dapat menyimpan data di luar lingkungan lokal di layanan Azure, seperti Azure Storage, atau database, seperti Azure Cosmos DB.

Output dari aktivitas ini adalah set metrik kartu skor untuk manajemen operasi. Kartu skor mengukur kriteria seperti keandalan, performa, dan biaya. Metrik kartu skor menyatakan kriteria operasional yang Anda harapkan dipenuhi oleh layanan.

Kartu skor harus disampaikan menggunakan istilah yang umum untuk mempermudah diskusi antara pemilik bisnis, operasi cloud, dan tim beban kerja. Misalnya, metrik kartu skor untuk keandalan mungkin diberi kode warna berdasarkan pencapaian SLA yang disepakati. Hijau berarti memenuhi SLA yang ditentukan, kuning berarti gagal memenuhi kriteria yang ditentukan tetapi secara aktif menerapkan perbaikan yang direncanakan, dan merah berarti gagal memenuhi kriteria yang ditentukan tanpa rencana atau tindakan.

Penting untuk ditekankan bahwa metrik ini harus secara langsung mencerminkan komitmen bisnis.

Fase peninjauan layanan

Fase peninjauan layanan adalah inti dari peninjauan kebugaran operasional. Fase peninjauan ini melibatkan langkah-langkah berikut:

  1. Mengukur metrik layanan. Gunakan metrik kartu skor untuk memantau performa di setiap tingkat manajemen operasi, guna memastikan bahwa layanan memenuhi komitmen bisnis. Layanan inventaris dan visibilitas dalam garis dasar operasi sangat penting. Jika Anda tidak dapat memantau serangkaian sumber daya sehubungan dengan komitmen bisnis, pertimbangkan metrik kartu skor yang sesuai untuk menjadi merah. Dalam hal ini, langkah awal untuk perbaikan adalah dengan menerapkan pemantauan layanan yang sesuai. Misalnya, jika bisnis mengharapkan layanan untuk beroperasi dengan ketersediaan 99,99 persen, tetapi tidak ada telemetri produksi untuk mengukur ketersediaan, anggap Anda tidak memenuhi persyaratan.

  2. Merencanakan remediasi. Untuk setiap komitmen bisnis yang metriknya berada di bawah ambang batas yang dapat diterima, tentukan tim operasi yang sesuai untuk menyelesaikan remediasi yang diperlukan. Tim tersebut bertanggung jawab untuk menghitung biaya remediasi layanan untuk membawa operasi ke tingkat yang dapat diterima. Jika biaya remediasi masalah lebih besar daripada anggaran yang dialokasikan untuk layanan tersebut, tim TI/CCoE pusat akan meninjau dengan tim strategi cloud untuk mengevaluasi investasi tambahan.

  3. Menerapkan remediasi. Setelah operasi cloud atau tim beban kerja mendapatkan persetujuan atas rencana remediasi, terapkan. Melaporkan status penerapan setiap kali Anda meninjau metrik kartu skor.

Proses ini bersifat berulang. Tim TI/CCoE pusat bertanggung jawab untuk mengelola proses dan melaporkan kemajuan ke tim strategi cloud. Tim ini harus bertemu secara berkala untuk meninjau proyek remediasi yang ada, memulai peninjauan mendasar dari beban kerja baru, dan melacak kartu skor perusahaan secara keseluruhan. Tim juga harus memiliki wewenang untuk meminta pertanggungjawaban tim remediasi (operasi cloud atau operasi beban kerja) jika mereka terlambat atau gagal memenuhi metrik.

Meninjau rapat

Kami merekomendasikan agar kebugaran operasional Anda ditinjau secara berkala. Tim IT/CCoE Pusat dan operasi cloud wajib hadir dalam peninjauan. Tim strategi cloud dan operasi beban kerja didorong untuk hadir tetapi tetap beroperasi. Contoh irama, tim inti mungkin bertemu setiap bulan untuk menyelaraskan rencana dan meminta pertanggungjawaban dari berbagai tim operasi. Setiap tiga bulan, strategi cloud dan semua tim beban kerja dapat bergabung untuk memahami status dan metrik.

Sesuaikan detail proses dan pertemuan agar sesuai dengan kebutuhan spesifik Anda. Kami merekomendasikan pertimbangan berikut sebagai titik awal:

  • Operasi terpusat: Tim beban kerja tidak mungkin berpartisipasi secara aktif dalam proses, tetapi harus disertakan dalam laporan apa pun untuk visibilitas.
  • Operasi terdesentralisasi: Tim operasi cloud harus berbagi praktik terbaik yang digunakan untuk meningkatkan operasi platform teknologi dengan tim beban kerja. Tim beban kerja harus membagikan perubahan pada beban kerja mereka masing-masing untuk mengidentifikasi peningkatan yang dapat diterapkan pada platform teknologi dan dasar operasi.
  • Azure Automanage. Azure Automanage secara otomatis memantau kebugaran operasional di seluruh garis dasar operasi dan mengotomatiskan penerapan berbagai strategi remediasi di seluruh portofolio.
  • Azure Advisor. Azure Advisor memberikan rekomendasi yang dipersonalisasi berdasarkan penggunaan dan konfigurasi Anda untuk membantu mengoptimalkan sumber daya Anda. Secara default, alat ini memberikan rekomendasi di seluruh langganan untuk meningkatkan garis besar operasi. Alat ini juga dapat digunakan secara lebih terperinci untuk mengidentifikasi peningkatan pada platform teknologi atau beban kerja individu.
  • Microsoft Azure Well-Architected Framework: Panduan untuk meningkatkan operasi beban kerja atau untuk memandu operasi yang didesentralisasi.