Tutorial: Mengkueri HDFS dalam kluster big data SQL Server

Artikel
07/04/2024

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk SQL Server 2019 Kluster Big Data akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung sepenuhnya pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan Opsi big data di platform Microsoft SQL Server.

Tutorial ini menunjukkan cara Mengkueri data HDFS dalam Kluster Big Data SQL Server 2019.

Dalam tutorial ini, Anda akan mempelajari cara:

Buat tabel eksternal yang menunjuk ke data HDFS dalam kluster big data.
Gabungkan data ini dengan data bernilai tinggi dalam instans master.

Tip

Jika mau, Anda dapat mengunduh dan menjalankan skrip untuk perintah dalam tutorial ini. Untuk petunjuknya, lihat Sampel virtualisasi data di GitHub.

Video 7 menit ini memancang Anda melalui kueri data HDFS dalam kluster big data:

Prasyarat

Alat big data
- kubectl
- Azure Data Studio
- Ekstensi SQL Server 2019
Memuat data sampel ke dalam kluster big data Anda

Membuat tabel eksternal ke HDFS

Kumpulan penyimpanan berisi data clickstream web dalam file CSV yang disimpan dalam HDFS. Gunakan langkah-langkah berikut untuk menentukan tabel eksternal yang bisa mengakses data dalam file tersebut.

Di Azure Data Studio, sambungkan ke instans master SQL Server dari kluster big data Anda. Untuk informasi selengkapnya, lihat Menyambungkan ke instans master SQL Server.
Klik dua kali pada koneksi di jendela Server untuk menampilkan dasbor server untuk instans master SQL Server. Pilih Kueri Baru.
Jalankan perintah Transact-SQL berikut untuk mengubah konteks ke database Penjualan dalam instans master.
```
USE Sales
GO
```

Tentukan format file CSV yang akan dibaca dari HDFS. Tekan F5 untuk menjalankan pernyataan.

CREATE EXTERNAL FILE FORMAT csv_file
WITH (
    FORMAT_TYPE = DELIMITEDTEXT,
    FORMAT_OPTIONS(
        FIELD_TERMINATOR = ',',
        STRING_DELIMITER = '"',
        FIRST_ROW = 2,
        USE_TYPE_DEFAULT = TRUE)
);

Buat sumber data eksternal ke kumpulan penyimpanan jika belum ada.

IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlStoragePool')
BEGIN
  CREATE EXTERNAL DATA SOURCE SqlStoragePool
  WITH (LOCATION = 'sqlhdfs://controller-svc/default');
END

Buat tabel eksternal yang dapat membaca /clickstream_data dari kumpulan penyimpanan. SqlStoragePool dapat diakses dari instans master kluster big data.

CREATE EXTERNAL TABLE [web_clickstreams_hdfs]
("wcs_click_date_sk" BIGINT , "wcs_click_time_sk" BIGINT , "wcs_sales_sk" BIGINT , "wcs_item_sk" BIGINT , "wcs_web_page_sk" BIGINT , "wcs_user_sk" BIGINT)
WITH
(
    DATA_SOURCE = SqlStoragePool,
    LOCATION = '/clickstream_data',
    FILE_FORMAT = csv_file
);
GO

Mengueri data

Jalankan kueri berikut untuk menggabungkan data HDFS dalam web_clickstream_hdfs tabel eksternal dengan data relasional di database lokal Sales .

SELECT  
    wcs_user_sk,
    SUM( CASE WHEN i_category = 'Books' THEN 1 ELSE 0 END) AS book_category_clicks,
    SUM( CASE WHEN i_category_id = 1 THEN 1 ELSE 0 END) AS [Home & Kitchen],
    SUM( CASE WHEN i_category_id = 2 THEN 1 ELSE 0 END) AS [Music],
    SUM( CASE WHEN i_category_id = 3 THEN 1 ELSE 0 END) AS [Books],
    SUM( CASE WHEN i_category_id = 4 THEN 1 ELSE 0 END) AS [Clothing & Accessories],
    SUM( CASE WHEN i_category_id = 5 THEN 1 ELSE 0 END) AS [Electronics],
    SUM( CASE WHEN i_category_id = 6 THEN 1 ELSE 0 END) AS [Tools & Home Improvement],
    SUM( CASE WHEN i_category_id = 7 THEN 1 ELSE 0 END) AS [Toys & Games],
    SUM( CASE WHEN i_category_id = 8 THEN 1 ELSE 0 END) AS [Movies & TV],
    SUM( CASE WHEN i_category_id = 9 THEN 1 ELSE 0 END) AS [Sports & Outdoors]
  FROM [dbo].[web_clickstreams_hdfs]
  INNER JOIN item it ON (wcs_item_sk = i_item_sk
                        AND wcs_user_sk IS NOT NULL)
GROUP BY  wcs_user_sk;
GO

Penghapusan

Gunakan perintah berikut untuk menghapus tabel eksternal yang digunakan dalam tutorial ini.

DROP EXTERNAL TABLE [dbo].[web_clickstreams_hdfs];
GO

Langkah berikutnya

Lanjutkan ke artikel berikutnya untuk mempelajari cara mengkueri Oracle dari kluster big data.

Mengkueri data eksternal di Oracle

Bagikan melalui