Bagikan melalui


Tutorial: Menganalisis data dengan kumpulan SQL khusus

Dalam tutorial ini, gunakan data Taksi NYC untuk menjelajahi kemampuan kumpulan SQL khusus.

  • [Sebarkan kumpulan SQL khusus]
  • [Muat data ke dalam kumpulan]
  • [Jelajahi data yang telah Anda muat]

Prasyarat

  • Tutorial ini mengasumsikan Anda telah menyelesaikan langkah-langkah di sisa mulai cepat. Secara khusus menggunakan sumber daya 'contosodatalake' yang dibuat di mulai cepat Buat Ruang Kerja Synapse.

Membuat kumpulan SQL khusus

  1. Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan SQL di bawah kumpulan Analytics.
  2. Pilih baru.
  3. Untuk Nama kumpulan SQL khusus pilih SQLPOOL1.
  4. Untuk Tingkat performa pilih DW100C.
  5. Pilih Tinjau + buat>Buat. Kumpulan SQL khusus Anda akan siap dalam beberapa menit.

Kumpulan SQL khusus Anda dikaitkan dengan database SQL yang juga disebut SQLPOOL1.

  1. Buka Ruang Kerja>Data.
  2. Anda akan melihat database bernama SQLPOOL1. Jika Anda tidak melihatnya, pilih Refresh.

Kumpulan SQL khusus menggunakan sumber daya yang dapat ditagih selama aktif. Anda dapat menjeda kumpulan nanti untuk mengurangi biaya.

Catatan

Saat membuat kumpulan SQL khusus baru (sebelumnya SQL DW) di ruang kerja Anda, halaman penyediaan kumpulan SQL khusus akan terbuka. Penyediaan akan dilakukan di server SQL logis.

Memuat Data NYC Taxi ke SQLPOOL1

  1. Di Synapse Studio, navigasikan ke hub Kembangkan , pilih + tombol untuk menambahkan sumber daya baru, lalu buat skrip SQL baru.

  2. Pilih kumpulan SQLPOOL1 (kumpulan yang dibuat di LANGKAH 1 tutorial ini) di Daftar drop-down Sambungkan ke di atas skrip.

  3. Masukkan kode berikut:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
        ,AUTO_CREATE_TABLE ='ON'
    )
    

    Tip

    Jika Anda mendapatkan kesalahan yang berbunyi Login failed for user '<token-identified principal>', Anda perlu mengatur admin Id Entra Anda.

    1. Di Portal Microsoft Azure, cari ruang kerja synapse Anda.
    2. Di bawah Pengaturan pilih ID Microsoft Entra.
    3. Pilih Atur admin dan atur admin ID Microsoft Entra.
  4. Pilih tombol Jalankan untuk menjalankan skrip.

  5. Skrip ini selesai dalam waktu kurang dari 60 detik. Ini memuat 2 juta baris data Taksi NYC ke dalam tabel yang disebut dbo.NYCTaxiTripSmall.

Pelajari data NYC Taxi di kumpulan SQL khusus

  1. Di Synapse Studio, buka hub Data.

  2. Buka SQLPOOL1>Tabel. (Jika Anda tidak melihatnya di menu, refresh halaman.)

  3. Klik kanan tabel dbo.NYCTaxiTripSmall lalu pilih Skrip SQL Baru>Pilih 100 Baris TERATAS.

  4. Tunggu sementara skrip SQL baru dibuat dan dijalankan.

  5. Di bagian atas skrip SQL Sambungkan ke secara otomatis diatur ke kumpulan SQL yang disebut SQLPOOL1.

  6. Ganti teks skrip SQL dengan kode ini dan jalankan.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Kueri ini membuat tabel dbo.PassengerCountStats dengan data agregat dari trip_distance bidang, lalu mengkueri tabel baru. Data menunjukkan bagaimana total jarak perjalanan dan jarak perjalanan rata-rata terkait dengan jumlah penumpang.

  7. Di jendela hasil skrip SQL, ubah Tampilan ke Bagan untuk melihat visualisasi hasil dalam bentuk diagram garis. Ubah kolom Kategori menjadi PassengerCount.

Penghapusan

Jeda Kumpulan SQL khusus Anda untuk mengurangi biaya.

  1. Navigasi ke Kelola di ruang kerja synapse Anda.
  2. Pilih kumpulan SQL.
  3. Arahkan mouse ke atas SQLPOOL1 dan pilih tombol Jeda .
  4. Konfirmasi untuk menjeda.

Langkah selanjutnya