Memigrasikan aplikasi data ke Azure Databricks

Artikel ini menyediakan pengantar untuk memigrasikan aplikasi data yang ada ke Azure Databricks. Azure Databricks menyediakan pendekatan terpadu yang memungkinkan Anda bekerja dengan data dari banyak sistem sumber pada satu platform.

Untuk gambaran umum kemampuan platform, lihat Apa itu Azure Databricks?.

Untuk informasi tentang migrasi antara versi Databricks Runtime, lihat panduan migrasi Databricks Runtime.

Memigrasikan pekerjaan ETL ke Azure Databricks

Anda dapat memigrasikan pekerjaan Apache Spark yang digunakan untuk mengekstrak, mengubah, dan memuat data dari implementasi lokal atau cloud-native ke Azure Databricks hanya dengan beberapa langkah. Lihat Mengadaptasi kode Apache Spark anda yang sudah ada untuk Azure Databricks.

Azure Databricks memperluas fungsionalitas Spark SQL dengan integrasi sumber terbuka yang telah dikonfigurasi sebelumnya, integrasi mitra, dan penawaran produk perusahaan. Jika beban kerja ETL Anda ditulis dalam SQL atau Apache Hive, Anda dapat bermigrasi ke Azure Databricks dengan pemfaktoran ulang minimal. Pelajari selengkapnya tentang penawaran Azure Databricks SQL:

Untuk instruksi khusus tentang migrasi dari berbagai sistem sumber ke Azure Databricks, lihat Memigrasikan alur ETL ke Azure Databricks.

Ganti gudang data perusahaan Anda dengan lakehouse

Azure Databricks memberikan nilai dan performa optimal saat beban kerja selaras dengan data yang disimpan di lakehouse. Banyak tumpukan data perusahaan mencakup data lake dan gudang data perusahaan, dan organisasi membuat alur kerja ETL yang kompleks untuk mencoba menjaga sistem dan data ini tetap sinkron. Lakehouse memungkinkan Anda menggunakan data yang sama, disimpan di data lake, di seluruh kueri dan sistem yang biasanya bergantung pada gudang data terpisah. Untuk informasi selengkapnya tentang lakehouse, lihat Apa itu data lakehouse?. Untuk informasi selengkapnya tentang pergudangan data di Databricks, lihat Apa itu pergudangan data di Azure Databricks?.

Migrasi dari gudang data perusahaan ke lakehouse umumnya melibatkan pengurangan kompleksitas arsitektur dan alur kerja data Anda, tetapi ada beberapa peringatan dan praktik terbaik yang perlu diingat saat menyelesaikan pekerjaan ini. Lihat Memigrasikan gudang data Anda ke databricks lakehouse.

Menyatukan beban kerja ML, ilmu data, dan analitik Anda

Karena lakehouse menyediakan akses yang dioptimalkan ke file data berbasis cloud melalui kueri tabel atau jalur file, Anda dapat melakukan ML, ilmu data, dan analitik pada satu salinan data Anda. Azure Databricks memudahkan untuk memindahkan beban kerja dari alat sumber terbuka dan kepemilikan, dan mempertahankan versi terbaru dari banyak pustaka sumber terbuka yang digunakan oleh analis dan ilmuwan data.

Beban kerja Pandas di notebook Jupyter dapat disinkronkan dan dijalankan menggunakan folder Databricks Git. Azure Databricks menyediakan dukungan asli untuk panda di semua versi Databricks Runtime, dan mengonfigurasi banyak pustaka ML dan pembelajaran mendalam populer di Databricks Runtime untuk Pembelajaran Mesin. Jika Anda menyinkronkan beban kerja lokal menggunakan file Git dan ruang kerja di folder Git, Anda dapat menggunakan jalur relatif yang sama untuk data dan libaries kustom yang ada di lingkungan lokal Anda.

Catatan

Secara default, Azure Databricks .ipynb mempertahankan ekstensi untuk notebook Jupyter yang disinkronkan dengan folder Databricks Git, tetapi secara otomatis mengonversi notebook Jupyter ke notebook Databricks saat diimpor dengan UI. Notebook Databricks menyimpan dengan .py ekstensi, sehingga dapat hidup berdampingan dengan notebook Jupyter di repositori Git.