Menganalisis data dengan kumpulan SQL tanpa server

Dalam tutorial ini, Anda akan belajar cara menganalisis data dengan kumpulan SQL tanpa server.

Kumpulan SQL tanpa server bawaan

Kumpulan SQL tanpa server memungkinkan Anda menggunakan SQL tanpa harus memesan kapasitas. Penagihan untuk kumpulan SQL tanpa server didasarkan pada jumlah data yang diproses untuk menjalankan kueri dan bukan jumlah simpul yang digunakan untuk menjalankan kueri.

Setiap ruang kerja dilengkapi dengan kumpulan SQL tanpa server yang telah dikonfigurasi sebelumnya yang disebut Bawaan.

Menganalisis data Taksi NYC dengan kumpulan SQL tanpa server

  1. Di Synapse Studio, buka hub Kembangkan

  2. Buat skrip SQL baru.

  3. Tempelkan kode berikut ke dalam skrip.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Pilih Jalankan.

Eksplorasi data hanyalah skenario yang disederhanakan di mana Anda dapat memahami karakteristik dasar data Anda. Pelajari lebih lanjut tentang eksplorasi dan analisis data dalam tutorial ini.

Membuat database eksplorasi data

Anda dapat menelusuri konten file secara langsung melalui database master. Untuk beberapa skenario eksplorasi data sederhana, Anda tidak perlu membuat database terpisah. Namun, saat Anda melanjutkan eksplorasi data, Anda mungkin ingin membuat beberapa objek utilitas, seperti:

  • Sumber data eksternal yang mewakili referensi bernama untuk akun penyimpanan.
  • Info masuk cakupan database yang memungkinkan Anda menentukan cara mengautentikasi ke sumber data eksternal.
  • Pengguna database dengan izin untuk mengakses beberapa sumber data atau objek database.
  • Tampilan utilitas, prosedur, dan fungsi yang dapat Anda gunakan dalam kueri.
  1. Gunakan database master untuk membuat database terpisah untuk objek database kustom. Objek database kustom, tidak bisa dibuat dalam database master.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Penting

    Gunakan kolase dengan akhiran _UTF8 untuk memastikan bahwa teks UTF-8 dikonversi dengan benar ke kolom VARCHAR. Latin1_General_100_BIN2_UTF8 memberikan performa terbaik dalam kueri yang membaca data dari file Parquet dan kontainer Azure Cosmos DB. Untuk informasi selengkapnya tentang mengubah kolase, lihat Jenis kolase yang didukung untuk Synapse SQL.

  2. Alihkan konteks database dari master ke DataExplorationDB menggunakan perintah berikut. Anda juga dapat menggunakan database use kontrol antarmuka pengguna untuk mengganti database Anda saat ini:

    USE DataExplorationDB
    
  3. Dari DataExplorationDB, buat objek utilitas seperti kredensial dan sumber data.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Catatan

    Sumber data eksternal dapat dibuat tanpa info masuk. Jika info masuk tidak ada, identitas pemanggil akan digunakan untuk mengakses sumber data eksternal.

  4. Secara opsional, gunakan database yang baru dibuat DataExplorationDB untuk membuat login bagi pengguna di DataExplorationDB yang akan mengakses data eksternal:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Selanjutnya buat pengguna database untuk DataExplorationDB masuk di atas dan berikan ADMINISTER DATABASE BULK OPERATIONS izin.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Jelajahi konten file menggunakan jalur relatif dan sumber data:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Terbitkan perubahan Anda ke ruang kerja.

Database eksplorasi data hanyalah tempat penampung sederhana di mana Anda dapat menyimpan objek utilitas Anda. Kumpulan SQL Synapse mengaktifkan Anda untuk melakukan lebih banyak hal dan membuat Gudang Data Logis - lapisan relasional yang dibangun di atas sumber data Azure. Pelajari selengkapnya tentang membangun gudang data logis dalam tutorial ini.

Langkah berikutnya