Bagikan melalui


Menjalankan contoh buku catatan dengan menggunakan Spark

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Microsoft SQL Server 2019 untuk Kluster Big Data akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi big data di platform Microsoft SQL Server.

Tutorial ini menunjukkan cara memuat dan menjalankan notebook di Azure Data Studio pada kluster big data SQL Server 2019. Ini memungkinkan ilmuwan data dan insinyur data untuk menjalankan kode Python, R, atau Scala terhadap kluster.

Petunjuk / Saran

Jika mau, Anda dapat mengunduh dan menjalankan skrip untuk perintah dalam tutorial ini. Untuk petunjuknya, lihat sampel Spark di GitHub.

Prasyarat

Mengunduh file buku catatan sampel

Gunakan instruksi berikut untuk memuat contoh file notebook spark-sql.ipynb ke Azure Data Studio.

  1. Buka prompt perintah bash (Linux) atau Windows PowerShell.

  2. Navigasikan ke direktori tempat Anda ingin mengunduh file buku catatan sampel.

  3. Jalankan perintah curl berikut untuk mengunduh file notebook dari GitHub:

    curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
    

Buka buku catatan

Langkah-langkah berikut menunjukkan cara membuka file buku catatan di Azure Data Studio:

  1. Di Azure Data Studio, sambungkan ke instans master kluster big data Anda. Untuk informasi selengkapnya, lihat Menyambungkan ke kluster big data.

  2. Klik dua kali pada koneksi gateway HDFS/Spark di jendela Server . Lalu pilih Buka Buku Catatan.

    Buka buku catatan

  3. Tunggu Kernel dan konteks target (Terhubung ke) diisi. Atur Kernel ke PySpark3, dan tautkan ke alamat IP endpoint kluster big data Anda.

    Atur Kernel dan Sambungkan ke

Penting

Di Azure Data Studio, semua jenis buku catatan Spark (Scala Spark, PySpark, dan SparkR) secara konvensional menentukan beberapa variabel terkait sesi Spark penting setelah eksekusi sel pertama. Variabel tersebut adalah: spark, , scdan sqlContext. Saat menyalin logika dari notebook untuk pengiriman batch (ke dalam file Python yang akan dijalankan misalnya azdata bdc spark batch create ), pastikan Anda menentukan variabel yang sesuai.

Jalankan sel buku catatan

Anda bisa menjalankan setiap sel buku catatan dengan menekan tombol putar di sebelah kiri sel. Hasilnya diperlihatkan dalam buku catatan setelah sel selesai berjalan.

Jalankan sel buku catatan

Jalankan setiap sel dalam contoh buku catatan secara berturut-turut. Untuk informasi selengkapnya tentang menggunakan buku catatan dengan Kluster Big Data SQL Server, lihat sumber daya berikut ini:

Langkah selanjutnya

Pelajari selengkapnya tentang buku catatan: