Menerapkan Solusi Analitik Data dengan Azure Databricks
Sekilas
-
Tingkat
-
Keahlian
-
Produk
-
Peran
-
Subjek
Di akhir jalur pembelajaran ini, Anda akan memiliki keterampilan yang solid di tingkat menengah hingga lanjut dalam Databricks dan Spark di Azure. Anda dapat menyerap, mengubah, dan menganalisis himpunan data skala besar menggunakan Spark DataFrames, Spark SQL, dan PySpark, memberi Anda keyakinan untuk bekerja dengan pemrosesan data terdistribusi. Dalam Databricks, Anda tahu cara menavigasi ruang kerja, mengelola kluster, dan membangun dan memelihara tabel Delta.
Anda juga akan mampu merancang dan menjalankan alur ETL, mengoptimalkan tabel Delta, mengelola perubahan skema, dan menerapkan aturan kualitas data. Selain itu, Anda mempelajari cara mengatur beban kerja dengan Pekerjaan dan alur Lakeflow, memungkinkan Anda berpindah dari eksplorasi ke alur kerja otomatis. Terakhir, Anda mendapatkan keakraban dengan fitur tata kelola dan keamanan, termasuk Unity Catalog, integrasi Purview, dan manajemen akses, mempersiapkan Anda untuk beroperasi secara efektif di lingkungan data siap produksi.
Prasyarat
Sebelum memulai jalur pembelajaran ini, Anda harus sudah nyaman dengan dasar-dasar Python dan SQL. Ini termasuk dapat menulis skrip Python sederhana dan bekerja dengan struktur data umum, serta menulis kueri SQL untuk memfilter, menggabungkan, dan menggabungkan data. Pemahaman dasar tentang format file umum seperti CSV, JSON, atau Parquet juga akan membantu saat bekerja dengan himpunan data.
Selain itu, keakraban dengan portal Microsoft Azure dan layanan inti seperti Azure Storage penting, bersama dengan kesadaran umum tentang konsep data seperti batch versus pemrosesan streaming dan terstruktur versus data yang tidak terstruktur. Meskipun tidak wajib, paparan sebelumnya terhadap kerangka kerja big data seperti Spark dan pengalaman bekerja dengan notebook Jupyter dapat membuat transisi ke Databricks menjadi lebih lancar.
Kode Prestasi
Apakah Anda ingin meminta kode prestasi?
Modul dalam jalur pembelajaran ini
Azure Databricks adalah layanan cloud yang menyediakan platform terukur untuk analitik data menggunakan Apache Spark.
Pelajari cara melakukan analisis data menggunakan Azure Databricks. Jelajahi berbagai metode penyerapan data dan cara mengintegrasikan data dari sumber seperti Azure Data Lake dan Azure SQL Database. Modul ini memandu Anda menggunakan notebook kolaboratif untuk melakukan analisis data eksploratif (EDA), sehingga Anda dapat memvisualisasikan, memanipulasi, dan memeriksa data untuk mengungkap pola, anomali, dan korelasi.
Azure Databricks dibangun di atas Apache Spark dan memungkinkan teknisi dan analis data menjalankan tugas Spark untuk mengubah, menganalisis, dan memvisualisasikan data dalam skala besar.
Delta Lake adalah solusi manajemen data di Azure Databricks yang menyediakan fitur termasuk transaksi ACID, penegakan skema, dan perjalanan waktu yang memastikan konsistensi data, integritas, dan kemampuan penerapan versi.
Membangun Alur Deklaratif Lakeflow memungkinkan pemrosesan data real time, dapat diskalakan, dan andal menggunakan fitur canggih Delta Lake di Azure Databricks
Menyebarkan beban kerja dengan Pekerjaan Lakeflow melibatkan mengatur dan mengotomatiskan alur pemrosesan data yang kompleks, alur kerja pembelajaran mesin, dan tugas analitik. Dalam modul ini, Anda mempelajari cara menyebarkan beban kerja dengan Databricks Lakeflow Jobs.