Bagikan melalui


Tutorial: Memuat data sampel ke dalam kluster big data SQL Server

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Microsoft SQL Server 2019 untuk Kluster Big Data akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi big data di platform Microsoft SQL Server.

Tutorial ini menjelaskan cara menggunakan skrip untuk memuat data sampel ke dalam Kluster Big Data SQL Server 2019. Banyak tutorial lain dalam dokumentasi menggunakan data sampel ini.

Petunjuk / Saran

Anda dapat menemukan sampel tambahan untuk Kluster Big Data SQL Server 2019 di repositori GitHub sql-server-samples . Mereka terletak di jalur sql-server-samples/samples/features/sql-big-data-cluster/ .

Prasyarat

Memuat data sampel

Langkah-langkah berikut menggunakan skrip bootstrap untuk mengunduh cadangan database SQL Server dan memuat data ke dalam kluster big data Anda. Untuk kemudahan penggunaan, langkah-langkah ini telah dipecah menjadi bagian Windows dan Linux . Jika Anda ingin menggunakan nama pengguna/kata sandi dasar sebagai mekanisme autentikasi, atur variabel lingkungan AZDATA_USERNAME dan AZDATA_PASSWORD sebelum menjalankan skrip. Jika tidak, skrip akan menggunakan autentikasi terintegrasi untuk menyambungkan ke instans Master SQL Server dan gateway Knox. Selain itu, nama DNS harus ditentukan untuk titik akhir untuk menggunakan autentikasi terintegrasi.

Windows

Langkah-langkah berikut menjelaskan cara menggunakan klien Windows untuk memuat data sampel ke dalam kluster big data Anda.

  1. Buka command prompt Windows baru.

    Penting

    Jangan gunakan Windows PowerShell untuk langkah-langkah ini. Di PowerShell, skrip akan gagal karena akan menggunakan versi Curl PowerShell.

  2. Gunakan curl untuk mengunduh skrip bootstrap untuk data sampel.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Unduh skrip Transact-SQL bootstrap-sample-db.sql . Skrip ini dipanggil oleh skrip bootstrap.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:

    Pengaturan Deskripsi
    <CLUSTER_NAMESPACE> (Ruang Nama Kluster) Nama yang Anda berikan pada kluster big data Anda.
    <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda.
    <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway.

    Petunjuk / Saran

    Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan kubectl get svc -n <your-big-data-cluster-name> dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.

  5. Jalankan skrip bootstrap.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

Langkah-langkah berikut menjelaskan cara menggunakan klien Linux untuk memuat data sampel ke dalam kluster big data Anda.

  1. Unduh skrip bootstrap, dan tetapkan izin yang dapat dieksekusi untuk skrip tersebut.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Unduh skrip Transact-SQL bootstrap-sample-db.sql . Skrip ini dipanggil oleh skrip bootstrap.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:

    Pengaturan Deskripsi
    <CLUSTER_NAMESPACE> (Ruang Nama Kluster) Nama yang Anda berikan pada kluster big data Anda.
    <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda.
    <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway.

    Petunjuk / Saran

    Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan kubectl get svc -n <your-big-data-cluster-name> dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.

  4. Jalankan skrip bootstrap.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Langkah selanjutnya

Setelah skrip bootstrap berjalan, kluster big data Anda memiliki database sampel dan data HDFS. Tutorial berikut menggunakan data sampel untuk menunjukkan kemampuan kluster big data:

Virtualisasi Data:

Penyerapan data:

Buku catatan: