Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Microsoft telah mengoperasikan platform online yang kompleks sejak hari-hari paling awal internet komersial. Sepanjang jalan, kami telah mengembangkan serangkaian praktik yang substansial untuk menjaga sistem tetap tersedia, sehat, dan aman. Praktik-praktik ini adalah bagian dari inisiatif yang lebih besar untuk mempertahankan dan meningkatkan budaya situs langsung.
Budaya situs langsung
Budaya situs langsung adalah fokus organisasi untuk memprioritaskan pengalaman dan keandalan situs langsung atas segala sesuatu yang lain. Bagaimanapun, pelanggan dapat berpindah lintas penyedia layanan dengan cukup mudah saat ini dengan cloud dan layanan berbasis internet, sangat memperkuat pentingnya kepercayaan pelanggan. Situs langsung harus selalu tersedia dan berkinerja seperti yang dijanjikan kepada pelanggan.
Ada berbagai faktor yang berkontribusi pada budaya situs langsung yang sukses.
Situs langsung terlebih dahulu
Mengutamakan pengalaman situs langsung adalah integral ke platform yang sukses. Tim tidak dapat memfokuskan semua fokus mereka pada fitur baru yang mengkilap dan mengalihkan jalan di mana fitur-fitur tersebut disajikan kepada pengguna. Kami mengandalkan praktik penyebaran yang aman yang membantu memastikan bahwa pelanggan kami menikmati akses platform yang tidak terganggu. Ini bisa menjadi sangat rumit dalam hal merilis pembaruan layanan versi tanpa waktu henti.
Mengontrol paparan melalui bendera fitur
Saat kami menyebarkan melalui tingkat dan tahapan kami, mengontrol paparan dengan bendera fitur, kami kadang-kadang menemukan masalah dalam produksi. Terlepas dari semua otomatisasi dan ulasan kami, terkadang hal-hal masih terjadi. Seperti yang mereka katakan, tidak ada tempat seperti produksi!
Biasanya, pemantauan kesehatan dan telemetri memperingatkan kita ketika ada sesuatu yang tidak benar. Pengembang dapat membuat cabang dari main, melakukan perbaikan, dan menarik permintaan ke dalam main. Menyimpan alur kerja umum yang sama berarti pengembang tidak perlu beralih konteks atau mempelajari proses yang berbeda untuk perubahan kode yang berbeda.
Untuk mengatasi penyebaran perbaikan, diperlukan satu langkah lagi, yaitu memilih perubahan ke cabang rilis. Kami menjalankan penyebaran perbaikan dari cabang rilis saat ini setiap pagi hari kerja, meskipun kami juga dapat melakukan ini sesuai permintaan untuk perbaikan mendesak. Perbaikan sebenarnya mencapai produksi dari cabang rilis terlebih dahulu. Tetapi karena kita mengembangkan di main awal, kita tahu itu tidak akan kemunculan sprint berikutnya ketika cabang rilis baru dibuat dari main.
Rilis produk lokal sebagian besar sama, meskipun tanpa tingkat penyebaran dan tahapan. Selain itu, karena kami melakukan pengujian lebih manual pada konfigurasi dan bentuk data yang berbeda, ada ekor yang lebih panjang antara memotong cabang rilis dan menempatkan produk di tangan pelanggan.
Keamanan harus diambil secara pribadi
Fokusnya adalah membuat kerentanan menjadi nyata dan pribadi. Ini memastikan bahwa orang-orang benar-benar peduli. Kami juga memanfaatkan game perang secara ekstensif untuk menemukan dan mengatasi risiko keamanan di seluruh sistem, baik dalam kode maupun tidak. Ketika tim merah dapat menunjukkan bahwa mereka masuk ke dalam kode dengan mengubah kotak dialog terbalik, itu benar-benar memotivasi pemilik kode untuk mengatasi masalah dan memastikan itu tidak terjadi lagi di tempat lain. Persaingan semacam itu jauh lebih nyata dan pribadi daripada peringatan analisis statis tentang potensi risiko XSS. Kami menciptakan budaya semacam ini dan dinamis melalui permainan perang dan latihan keamanan lainnya. Orang-orang bangga dalam meretas kode satu sama lain atau dapat memblokir upaya. Ini menanamkan budaya kode yang aman.
Kita tidak dapat merencanakan untuk setiap vektor serangan, tapi apa yang bisa kita lakukan adalah mengasumsikan bahwa akan ada pelanggaran, dan merencanakan seberapa cepat kita dapat bereaksi terhadap pelanggaran itu. Banyak pekerjaan keamanan telah di sekitar itu untuk tim kami.
Akhirnya, manusia membuat kesalahan. Mereka kadang-kadang malas dan melakukan hal-hal seperti menyimpan kata sandi pada berbagi file. Kita dapat memberitahu mereka untuk tidak dan kita dapat mengirim mereka ke pelatihan keamanan dan kita dapat melakukan segala macam hal lain. Kebanyakan orang belajar, tetapi hanya membutuhkan satu orang untuk merusak sistem. Anda dapat memiliki semua jenis daftar praktik terbaik tetapi kecuali Anda membuat itu nyata, Anda harus berasumsi bahwa orang akan membuat kesalahan. Ini memerlukan tingkat pengawasan tertentu untuk memastikan proses penting diikuti.
Teknik lebih dari mitra operasi
Kami belajar sejak dini untuk menjadikan situs langsung sebagai bagian penting dari tanggung jawab tim teknik. Itu sangat besar bagi kami karena, di masa lalu, satu orang bisa menyebarkan sesuatu, berangkat untuk akhir pekan, dan kembali hari Senin untuk menemukan masalah pelanggan 900 yang dihadapi oleh dukungan pelanggan dan tim ops sepanjang akhir pekan. Penting bahwa rekayasa membayar harga untuk masalah situs langsung. Jika tidak, tidak ada insentif untuk membangun sistem yang menghindari masalah tersebut. Saat kau dipanggil jam 2 pagi untuk memperbaiki sesuatu yang kau pecahkan, ingatlah.
Ketika kami mengembangkan tanggung jawab ini, Situs langsung adalah hal terpenting yang kami lakukan menjadi mantra seluruh tim. Ini adalah pengalaman pelanggan yang mereka miliki sekarang dan itu bukan hanya pajak. Ini sebenarnya sesuatu yang diandalkan orang-orang dari kami dan kami bangga akan hal itu. Ini harus menjadi fitur yang membedakan produk kami.
Telemetri produksi adalah heartbeat layanan Anda
Untuk bertahan hidup di dunia yang serba cepat di mana hampir semua hal dapat salah, kita membutuhkan sistem peringatan yang hebat. Pemberitahuan yang tidak dapat dihilangkan, pemberitahuan berlebihan, atau volume pemberitahuan yang luar biasa membuat Anda mengabaikan semua pemberitahuan. Sangat mudah untuk membuat terlalu banyak pemberitahuan, sehingga prosesnya benar-benar meluas ke pertanyaan sederhana: Apakah pemberitahuan ini dapat ditindakl? Ini memastikan kami terlibat pada masalah pelanggan yang tepat dan menanganinya secepat mungkin.
Ketika tim teknik nol dalam pemberitahuan yang dapat ditindaklanjuti, mereka memperhatikan bahwa banyak masalah yang muncul, terutama di tengah malam, cenderung memiliki perbaikan yang sama, setidaknya untuk sementara. Hal ini mengakibatkan fokus pada sistem yang lebih baik dalam failover dan penyembuhan diri. Sekarang masalah terjadi, ajukan pemberitahuan, lalu perbaiki diri mereka dengan cukup baik agar tim teknik menunggu hingga pagi untuk memperbaikinya. Ini tidak akan terjadi jika tim teknik hanya mendorong keluar bit yang membuat orang lain terjaga di malam hari. Sekarang mereka bekerja untuk menyeimbangkan peningkatan ini sebagai bagian dari tidak hanya kecepatan fitur, tetapi kecepatan peningkatan rekayasa.
Ringkasan
Mengadopsi budaya situs langsung telah berdampak pada cara Microsoft membangun dan memberikan perangkat lunak. Dengan menjadikan tim teknik sebagai bagian penting dari keamanan dan operasi, kualitas kode dan pengalaman pengguna akhir kami telah meningkat secara drastis. Menjadi peserta penuh dalam operasi telah menjadikan rekayasa sebagai pemangku kepentingan utama, menghasilkan sistem yang dirancang untuk operasi yang lebih baik.