Bagikan melalui


Keandalan untuk data lakehouse

Prinsip arsitektur pilar keandalan mengatasi kemampuan sistem untuk pulih dari kegagalan dan terus berfungsi.

Diagram arsitektur lakehouse keandalan untuk Databricks.

Prinsip-prinsip keandalan

  1. Desain untuk kegagalan

    Di lingkungan yang sangat terdistribusi, pemadaman dapat terjadi. Untuk platform dan berbagai beban kerja - seperti pekerjaan streaming, pekerjaan batch, pelatihan model, dan kueri BI - kegagalan harus diantisipasi dan solusi tangguh harus dikembangkan untuk meningkatkan keandalan. Fokusnya adalah merancang aplikasi untuk pulih dengan cepat dan, dalam kasus terbaik, secara otomatis.

  2. Mengelola kualitas data

    Kualitas data sangat mendasar untuk memperoleh wawasan yang akurat dan bermakna dari data. Kualitas data memiliki banyak dimensi, termasuk kelengkapan, akurasi, validitas, dan konsistensi. Ini harus dikelola secara aktif untuk meningkatkan kualitas himpunan data akhir sehingga data berfungsi sebagai informasi yang andal dan dapat dipercaya untuk pengguna bisnis.

  3. Desain untuk penskalaan otomatis

    Proses ETL standar, laporan bisnis, dan dasbor sering memiliki persyaratan sumber daya yang dapat diprediksi dalam hal memori dan komputasi. Namun, proyek baru, tugas musiman, atau pendekatan lanjutan seperti pelatihan model (untuk churn, prakiraan, dan pemeliharaan) membuat lonjakan persyaratan sumber daya. Agar organisasi dapat menangani semua beban kerja ini, organisasi memerlukan penyimpanan dan platform komputasi yang dapat diskalakan. Menambahkan sumber daya baru sesuai kebutuhan harus mudah, dan hanya konsumsi aktual yang harus dibebankan. Setelah puncak berakhir, sumber daya dapat dibebaskan dan biaya berkurang sesuai. Ini sering disebut sebagai penskalaan horizontal (jumlah simpul) dan penskalaan vertikal (ukuran simpul).

  4. Menguji prosedur pemulihan

    Strategi pemulihan bencana di seluruh perusahaan untuk sebagian besar aplikasi dan sistem memerlukan penilaian prioritas, kemampuan, batasan, dan biaya. Pendekatan pemulihan bencana yang andal secara teratur menguji bagaimana beban kerja gagal dan memvalidasi prosedur pemulihan. Automasi dapat digunakan untuk mensimulasikan kegagalan yang berbeda atau membuat ulang skenario yang telah menyebabkan kegagalan di masa lalu.

  5. Mengotomatiskan penyebaran dan beban kerja

    Mengotomatiskan penyebaran dan beban kerja untuk lakehouse membantu menstandarkan proses ini, menghilangkan kesalahan manusia, meningkatkan produktivitas, dan memberikan pengulangan yang lebih besar. Ini termasuk menggunakan "konfigurasi sebagai kode" untuk menghindari penyimpangan konfigurasi, dan "infrastruktur sebagai kode" untuk mengotomatiskan provisi semua layanan lakehouse dan cloud yang diperlukan.

  6. Memantau sistem dan beban kerja

    Beban kerja di lakehouse biasanya mengintegrasikan layanan platform Databricks dan layanan cloud eksternal, misalnya sebagai sumber data atau target. Eksekusi yang berhasil hanya dapat terjadi jika setiap layanan dalam rantai eksekusi berfungsi dengan baik. Ketika ini tidak terjadi, pemantauan, peringatan, dan pengelogan penting untuk mendeteksi dan melacak masalah dan memahami perilaku sistem.

Berikutnya: Praktik terbaik untuk keandalan

Lihat Praktik terbaik untuk keandalan.