Menjalankan contoh buku catatan dengan menggunakan Spark
Berlaku untuk: SQL Server 2019 (15.x)
Penting
Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk SQL Server 2019 Kluster Big Data akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan Opsi big data di platform Microsoft SQL Server.
Tutorial ini menunjukkan cara memuat dan menjalankan notebook di Azure Data Studio pada kluster big data SQL Server 2019. Ini memungkinkan ilmuwan data dan insinyur data untuk menjalankan kode Python, R, atau Scala terhadap kluster.
Tip
Jika mau, Anda dapat mengunduh dan menjalankan skrip untuk perintah dalam tutorial ini. Untuk petunjuknya, lihat sampel Spark di GitHub.
Prasyarat
- Alat big data
- kubectl
- Azure Data Studio
- Ekstensi SQL Server 2019
- Memuat data sampel ke dalam kluster big data Anda
Mengunduh file buku catatan sampel
Gunakan instruksi berikut untuk memuat contoh file notebook spark-sql.ipynb ke Azure Data Studio.
Buka prompt perintah bash (Linux) atau Windows PowerShell.
Navigasikan ke direktori tempat Anda ingin mengunduh file buku catatan sampel.
Jalankan perintah curl berikut untuk mengunduh file notebook dari GitHub:
curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
Buka buku catatan
Langkah-langkah berikut menunjukkan cara membuka file buku catatan di Azure Data Studio:
Di Azure Data Studio, sambungkan ke instans master kluster big data Anda. Untuk informasi selengkapnya, lihat Menyambungkan ke kluster big data.
Klik dua kali pada koneksi gateway HDFS/Spark di jendela Server . Lalu pilih Buka Buku Catatan.
Tunggu hingga Kernel dan konteks target (Lampirkan ke) diisi. Atur Kernel ke PySpark3, dan atur Lampirkan ke alamat IP titik akhir kluster big data Anda.
Penting
Di Azure Data Studio, semua jenis buku catatan Spark (Scala Spark, PySpark, dan SparkR) secara konvensional menentukan beberapa variabel terkait sesi Spark penting setelah eksekusi sel pertama. Variabel tersebut adalah: spark
, , sc
dan sqlContext
. Saat menyalin logika dari notebook untuk pengiriman batch (ke dalam file Python yang akan dijalankan misalnya azdata bdc spark batch create
), pastikan Anda menentukan variabel yang sesuai.
Menjalankan sel buku catatan
Anda bisa menjalankan setiap sel buku catatan dengan menekan tombol putar di sebelah kiri sel. Hasilnya diperlihatkan dalam buku catatan setelah sel selesai berjalan.
Jalankan setiap sel dalam contoh buku catatan secara berturut-turut. Untuk informasi selengkapnya tentang menggunakan buku catatan dengan SQL Server Kluster Big Data, lihat sumber daya berikut ini:
Langkah berikutnya
Pelajari selengkapnya tentang buku catatan: