Memahami Apache Spark untuk Pengembang U-SQL

Penting

Azure Data Lake Analytics pensiun pada 29 Februari 2024. Pelajari lebih lanjut dengan pengumuman ini.

Untuk analitik data, organisasi Anda dapat menggunakan Azure Synapse Analytics atau Microsoft Fabric.

Microsoft mendukung beberapa layanan Analytics seperti Azure Databricks, Azure HDInsight, dan Azure Data Lake Analytics. Kami mendengar dari pengembang bahwa mereka memiliki preferensi yang jelas untuk solusi sumber terbuka saat mereka membangun saluran analitik. Untuk membantu pengembang U-SQL memahami Apache Spark, dan bagaimana Anda dapat mengubah skrip U-SQL Anda menjadi Apache Spark, kami telah membuat panduan ini.

Ini termasuk langkah-langkah yang dapat Anda ambil, dan beberapa alternatif.

Langkah-langkah untuk mengubah U-SQL ke Apache Spark

  1. Ubah saluran orkestrasi pekerjaan Anda.

    Jika Anda menggunakan Azure Data Factory untuk mengatur skrip Azure Data Lake Analytics, Anda harus menyesuaikannya untuk mengatur program Spark baru.

  2. Pahami perbedaan antara cara U-SQL dan Spark mengelola data.

    Jika Anda ingin memindahkan data dari Azure Data Lake Storage Gen1 ke Azure Data Lake Storage Gen2, Anda harus menyalin data file dan data yang dikelola katalog. Azure Data Lake Analytics hanya mendukung Azure Data Lake Storage Gen1. Untuk informasi selengkapnya, lihat Memahami format data Spark.

  3. Ubah skrip U-SQL Anda menjadi Spark.

    Sebelum mengubah skrip U-SQL, Anda harus memilih layanan analitik. Beberapa layanan komputasi yang tersedia adalah:

    • Aliran Data Pabrik Data Azure Alur data pemetaan dirancang secara visual transformasi data yang memungkinkan insinyur data untuk mengembangkan logika transformasi data grafis tanpa menulis kode. Meskipun tidak cocok untuk menjalankan kode pengguna yang kompleks, mereka dapat dengan mudah mewakili transformasi aliran data tradisional seperti SQL
    • Azure HDInsight Sarang Apache Hive pada HDInsight cocok untuk operasi Ekstrak, Transformasi, dan Beban (ETL). Ini berarti Anda akan menerjemahkan skrip U-SQL Anda ke Apache Hive.
    • Apache Spark Engines seperti Azure HDInsight Spark atau Azure Databricks Ini berarti Anda akan menerjemahkan skrip U-SQL Anda ke Spark. Untuk informasi selengkapnya, lihat Memahami format data Spark

Perhatian

Azure Databricks danAzure HDInsight Spark adalah layanan klaster dan bukan pekerjaan tanpa server seperti Azure Data Lake Analytics. Anda harus mempertimbangkan cara menyediakan klaster untuk mendapatkan rasio biaya / kinerja yang sesuai dan cara mengelola masa pakai mereka untuk meminimalkan biaya Anda. Layanan ini memiliki karakteristik kinerja yang berbeda dengan kode pengguna yang ditulis dalam .NET, jadi Anda harus menulis pembungkus atau menulis ulang kode Anda dalam bahasa yang didukung. Untuk informasi selengkapnya, lihat Memahami format data Spark, Memahami konsep kode Apache Spark untuk pengembang U-SQL, .NET untuk Apache Spark

Langkah berikutnya