Mulai menggunakan U-SQL di Azure Data Lake Analytics

Artikel
12/20/2023

Penting

Azure Data Lake Analytics pensiun pada 29 Februari 2024. Pelajari lebih lanjut dengan pengumuman ini.

Untuk analitik data, organisasi Anda dapat menggunakan Azure Synapse Analytics atau Microsoft Fabric.

U-SQL adalah bahasa yang menggabungkan SQL deklaratif dengan C# imperatif untuk memungkinkan Anda memproses data dalam skala berapa pun. Melalui kemampuan U-SQL yang dapat diskalakan dan didistribusikan kueri, Anda dapat menganalisis data secara efisien di seluruh penyimpanan relasional seperti Azure SQL Database. Dengan U-SQL, Anda dapat memproses data yang tidak terstruktur dengan menerapkan skema pada baca dan menyisipkan logika kustom dan UDF. Selain itu, U-SQL mencakup perluasan yang memberi Anda kontrol terperinci tentang cara mengeksekusi berskala.

Sumber daya pembelajaran

Tutorial U-SQL menyediakan panduan lengkap dari sebagian besar bahasa U-SQL. Dokumen ini merupakan bacaan yang direkomendasikan untuk semua pengembang yang ingin mempelajari U-SQL.
Untuk informasi detail tentang sintaks bahasa U-SQL, lihat Referensi Bahasa U-SQL.
Untuk memahami filosofi desain U-SQL, lihat posting blog Visual Studio Memperkenalkan U-SQL – Bahasa yang membuat Pemrosesan Big Data Mudah.

Mari kita buat beberapa data

Skrip U-SQL berikut ini sederhana dan memungkinkan kami membuat file data sampel yang dapat kami referensikan di skrip U-SQL kami yang lain. Kita akan membahas konsep utama yang membuat skrip ini masuk di bagian berikutnya.

USE DATABASE master;
USE SCHEMA dbo;
@a  = 
    SELECT * FROM 
        (VALUES
            (399266, "2/15/2012 11:53:16 AM", "en-us", "microsoft", 73, "microsoft.com;xbox.com", "NULL"),
			(382045, "2/15/2012 11:53:18 AM", "en-gb", "azure data lake analytics", 614, "microsoft.com;portal.azure.com", "portal.azure.com"),
			(382045, "2/16/2012 11:53:20 AM", "en-gb", "usql", 74, "microsoft.com;github.com", "NULL"),
			(106479, "2/16/2012 11:53:50 AM", "en-ca", "xbox", 24, "xbox.com;xbox.com/xbox360", "xbox.com/xbox360"),
			(906441, "2/16/2012 11:54:01 AM", "en-us", "machine learning", 1213, "microsoft.com;github.com", "NULL"),
			(304305, "2/16/2012 11:54:03 AM", "en-us", "outlook", 60, "microsoft.com;office.com;live.com","microsoft.com"),
			(460748, "2/16/2012 11:54:04 AM", "en-us", "azure storage", 1270, "microsoft.com;portal.azure.com", "portal.azure.com"),
			(354841, "2/16/2012 11:59:01 AM", "en-us", "azure", 610, "microsoft.com;portal.azure.com", "portal.azure.com"),
			(354068, "2/16/2012 12:00:33 PM", "en-mx", "key vault", 422, "microsoft.com;portal.azure.com", "portal.azure.com"),
			(347413, "2/16/2012 12:11:55 PM", "en-gr", "github", 305, "github.com", "NULL"),
			(840614, "2/16/2012 12:13:56 PM", "en-us", "surface", 1220, "microsoft.com", "NULL"),
			(656666, "2/16/2012 12:15:55 PM", "en-us", "visual studio", 691, "microsoft.com;code.visualstudio.com", "NULL"),
			(951513, "2/16/2012 12:17:00 PM", "en-us", "power bi", 63, "microsoft.com;app.powerbi.com", "powerbi.com"),
			(350350, "2/16/2012 12:18:17 PM", "en-us", "data factory", 30, "microsoft.com;portal.azure.com", "NULL"),
			(641615, "2/16/2012 12:19:55 PM", "en-us", "event hubs", 119, "microsoft.com;portal.azure.com", "NULL")
        ) AS 
              D( UserId, Start, Region, Query, Duration, Urls, ClickedUrls );
OUTPUT @a
    TO "Samples/Data/SearchLog.tsv"
    USING Outputters.Tsv();

Membaca data dari file

Sekarang setelah kita memiliki beberapa data, mari kita baca dari file yang kita buat.

@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM "/Samples/Data/SearchLog.tsv"
    USING Extractors.Tsv();

OUTPUT @searchlog
    TO "/output/SearchLog-first-u-sql.csv"
    USING Outputters.Csv();

Skrip ini tidak memiliki langkah transformasi. Ia membaca dari file sumber yang disebut SearchLog.tsv, menskemakannya, dan menulis set baris kembali ke file yang disebut SearchLog-first-u-sql.csv.

Perhatikan tanda tanya di samping jenis data di bidang Duration. Artinya bidang Duration bisa null.

Konsep utama

Variabel set baris: Setiap ekspresi kueri yang menghasilkan set baris dapat ditetapkan ke variabel. U-SQL mengikuti pola penamaan variabel T-SQL (@searchlog, contohnya) dalam skrip.
Kata kunci EXTRACT membaca data dari file dan menentukan skema saat dibaca. Extractors.Tsv adalah ekstraktor U-SQL bawaan untuk file nilai yang dipisahkan tab. Anda dapat mengembangkan ekstraktor khusus.
OUTPUT menulis data dari set baris ke file. Outputters.Csv() adalah outputter U-SQL bawaan untuk membuat file nilai yang dipisahkan koma. Anda dapat mengembangkan outputter khusus.

Jalur file

Pernyataan EXTRACT dan OUTPUT menggunakan jalur file. Jalur file bisa absolut atau relatif:

Jalur file absolut berikut ini merujuk ke file di Data Lake Storage bernama mystore:

adl://mystore.azuredatalakestore.net/Samples/Data/SearchLog.tsv

Jalur file berikut ini dimulai dengan "/". Ia mengacu pada file di akun Data Lake Store default:

/output/SearchLog-first-u-sql.csv

Menggunakan variabel skalar

Anda dapat menggunakan variabel skalar juga untuk mempermudah pemeliharaan skrip Anda. Skrip U-SQL sebelumnya juga dapat ditulis sebagai:

DECLARE @in  string = "/Samples/Data/SearchLog.tsv";
DECLARE @out string = "/output/SearchLog-scalar-variables.csv";
@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM @in
    USING Extractors.Tsv();
OUTPUT @searchlog
    TO @out
    USING Outputters.Csv();

Mengubah set baris

Gunakan SELECT untuk mengubah kumpulan baris. Skrip ini akan memilih kolom Mulai, Wilayah, dan Durasi, dan akan menulis baris tersebut ke file ketika Wilayah memiliki nilai "en-gb":

@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM "/Samples/Data/SearchLog.tsv"
    USING Extractors.Tsv();
@rs1 =
    SELECT Start, Region, Duration
    FROM @searchlog
WHERE Region == "en-gb";
OUTPUT @rs1
    TO "/output/SearchLog-transform-rowsets.csv"
    USING Outputters.Csv();

Klausa WHERE menggunakan ekspresi C# Boolean. Anda dapat menggunakan bahasa ekspresi C# untuk melakukan ekspresi dan fungsi Anda sendiri. Anda bahkan dapat melakukan pemfilteran yang lebih kompleks dengan menggabungkannya dengan konjungsi logis (AND) dan disjungsi (OR).

Skrip berikut menggunakan metode DateTime.Parse() dan konjungsi. kolom Mulai, Wilayah, dan Durasi, di mana Wilayah memiliki nilai "en-gb". Kemudian memeriksa nilai kolom Durasi antara tanggal tertentu dan menulis nilai tersebut ke file:

@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM "/Samples/Data/SearchLog.tsv"
    USING Extractors.Tsv();
@rs1 =
    SELECT Start, Region, Duration
    FROM @searchlog
WHERE Region == "en-gb";
@rs1 =
    SELECT Start, Region, Duration
    FROM @rs1
    WHERE Start >= DateTime.Parse("2012/02/16") AND Start <= DateTime.Parse("2012/02/17");
OUTPUT @rs1
    TO "/output/SearchLog-transform-datetime.csv"
    USING Outputters.Csv();

Catatan

Kueri kedua beroperasi pada hasil set baris pertama, yang membuat gabungan dari dua filter. Anda juga dapat menggunakan kembali nama variabel, dan nama-nama tersebut tercakup secara leksikal.

Agregat himpunan baris

U-SQL memberi Anda ORDER BY, GROUP BY, dan agregasi yang sudah akrab.

Kueri berikut ini menemukan total durasi per region, lalu menampilkan lima durasi teratas secara berurutan.

Kumpulan baris U-SQL tidak mempertahankan urutannya untuk kueri berikutnya. Dengan demikian, untuk memesan output, Anda perlu menambahkan ORDER BY ke pernyataan OUTPUT:

DECLARE @outpref string = "/output/Searchlog-aggregation";
DECLARE @out1    string = @outpref+"_agg.csv";
DECLARE @out2    string = @outpref+"_top5agg.csv";
@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM "/Samples/Data/SearchLog.tsv"
    USING Extractors.Tsv();
@rs1 =
    SELECT
        Region,
        SUM(Duration) AS TotalDuration
    FROM @searchlog
GROUP BY Region;
@res =
    SELECT *
    FROM @rs1
    ORDER BY TotalDuration DESC
    FETCH 5 ROWS;
OUTPUT @rs1
    TO @out1
    ORDER BY TotalDuration DESC
    USING Outputters.Csv();
OUTPUT @res
    TO @out2
    ORDER BY TotalDuration DESC
    USING Outputters.Csv();

Klausa ORDER BY U-SQL memerlukan penggunaan klausa FETCH dalam ekspresi SELECT.

Klausa HAVING U-SQL dapat digunakan untuk membatasi output ke grup yang memenuhi kondisi HAVING:

@searchlog =
    EXTRACT UserId          int,
            Start           DateTime,
            Region          string,
            Query           string,
            Duration        int?,
            Urls            string,
            ClickedUrls     string
    FROM "/Samples/Data/SearchLog.tsv"
    USING Extractors.Tsv();
@res =
    SELECT
        Region,
        SUM(Duration) AS TotalDuration
    FROM @searchlog
    GROUP BY Region
    HAVING SUM(Duration) > 200;
OUTPUT @res
    TO "/output/Searchlog-having.csv"
    ORDER BY TotalDuration DESC
    USING Outputters.Csv();

Untuk skenario agregasi tingkat lanjut, lihat dokumentasi referensi U-SQL untuk fungsi agregat, analitik, dan referensi.