Menjalankan contoh buku catatan dengan menggunakan Spark

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.

Tutorial ini menunjukkan cara memuat dan menjalankan notebook di Azure Data Studio pada kluster big data SQL Server 2019. Ini memungkinkan ilmuwan data dan insinyur data untuk menjalankan kode Python, R, atau Scala terhadap kluster.

Tip

Jika mau, Anda dapat mengunduh dan menjalankan skrip untuk perintah dalam tutorial ini. Untuk petunjuknya, lihat sampel Spark di GitHub.

Prasyarat

Mengunduh file buku catatan sampel

Gunakan instruksi berikut untuk memuat contoh file notebook spark-sql.ipynb ke Azure Data Studio.

  1. Buka prompt perintah bash (Linux) atau Windows PowerShell.

  2. Navigasi ke direktori tempat Anda ingin mengunduh file buku catatan sampel.

  3. Jalankan perintah curl berikut untuk mengunduh file notebook dari GitHub:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

Buka buku catatan

Langkah-langkah berikut ini memperlihatkan cara membuka file buku catatan di Azure Data Studio:

  1. Di Azure Data Studio, sambungkan ke instans master kluster big data Anda. Untuk informasi selengkapnya, lihat Menyambungkan ke kluster big data.

  2. Klik dua kali pada koneksi gateway HDFS/Spark di jendela Server . Lalu pilih Buka Buku Catatan.

    Buka buku catatan

  3. Tunggu hingga Kernel dan konteks target (Lampirkan ke) diisi. Atur Kernel ke PySpark3, dan atur Lampirkan ke alamat IP titik akhir kluster big data Anda.

    Atur Kernel dan Lampirkan ke

Penting

Di Azure Data Studio, semua jenis buku catatan Spark (Scala Spark, PySpark, dan SparkR) secara konvensional menentukan beberapa variabel terkait sesi Spark penting setelah eksekusi sel pertama. Variabel tersebut adalah: spark, sc, dan sqlContext. Saat menyalin logika dari notebook untuk pengiriman batch (ke dalam file Python yang akan dijalankan misalnya azdata bdc spark batch create ), pastikan Anda menentukan variabel yang sesuai.

Menjalankan sel buku catatan

Anda bisa menjalankan setiap sel buku catatan dengan menekan tombol putar di sebelah kiri sel. Hasilnya diperlihatkan dalam buku catatan setelah sel selesai berjalan.

Menjalankan sel buku catatan

Jalankan setiap sel dalam buku catatan sampel secara berturut-turut. Untuk informasi selengkapnya tentang menggunakan buku catatan dengan SQL Server Kluster Big Data, lihat sumber daya berikut ini:

Langkah berikutnya

Pelajari selengkapnya tentang buku catatan: