Menjalankan contoh buku catatan dengan menggunakan Spark
Berlaku untuk: SQL Server 2019 (15.x)
Penting
Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.
Tutorial ini menunjukkan cara memuat dan menjalankan notebook di Azure Data Studio pada kluster big data SQL Server 2019. Ini memungkinkan ilmuwan data dan insinyur data untuk menjalankan kode Python, R, atau Scala terhadap kluster.
Tip
Jika mau, Anda dapat mengunduh dan menjalankan skrip untuk perintah dalam tutorial ini. Untuk petunjuknya, lihat sampel Spark di GitHub.
Prasyarat
- Alat big data
- kubectl
- Azure Data Studio
- ekstensi SQL Server 2019
- Memuat data sampel ke dalam kluster big data Anda
Mengunduh file buku catatan sampel
Gunakan instruksi berikut untuk memuat contoh file notebook spark-sql.ipynb ke Azure Data Studio.
Buka prompt perintah bash (Linux) atau Windows PowerShell.
Navigasi ke direktori tempat Anda ingin mengunduh file buku catatan sampel.
Jalankan perintah curl berikut untuk mengunduh file notebook dari GitHub:
curl https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/spark/data-loading/transform-csv-files.ipynb -o transform-csv-files.ipynb
Buka buku catatan
Langkah-langkah berikut ini memperlihatkan cara membuka file buku catatan di Azure Data Studio:
Di Azure Data Studio, sambungkan ke instans master kluster big data Anda. Untuk informasi selengkapnya, lihat Menyambungkan ke kluster big data.
Klik dua kali pada koneksi gateway HDFS/Spark di jendela Server . Lalu pilih Buka Buku Catatan.
Tunggu hingga Kernel dan konteks target (Lampirkan ke) diisi. Atur Kernel ke PySpark3, dan atur Lampirkan ke alamat IP titik akhir kluster big data Anda.
Penting
Di Azure Data Studio, semua jenis buku catatan Spark (Scala Spark, PySpark, dan SparkR) secara konvensional menentukan beberapa variabel terkait sesi Spark penting setelah eksekusi sel pertama. Variabel tersebut adalah: spark
, sc
, dan sqlContext
. Saat menyalin logika dari notebook untuk pengiriman batch (ke dalam file Python yang akan dijalankan misalnya azdata bdc spark batch create
), pastikan Anda menentukan variabel yang sesuai.
Menjalankan sel buku catatan
Anda bisa menjalankan setiap sel buku catatan dengan menekan tombol putar di sebelah kiri sel. Hasilnya diperlihatkan dalam buku catatan setelah sel selesai berjalan.
Jalankan setiap sel dalam buku catatan sampel secara berturut-turut. Untuk informasi selengkapnya tentang menggunakan buku catatan dengan SQL Server Kluster Big Data, lihat sumber daya berikut ini:
Langkah berikutnya
Pelajari selengkapnya tentang buku catatan:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk