Analizowanie danych za pomocą dedykowanych pul SQL

W tym samouczku użyj danych taksówek w Nowym Jorku, aby zapoznać się z możliwościami dedykowanej puli SQL.

Tworzenie dedykowanej puli SQL

  1. W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami> SQL w obszarze Pule analiz.
  2. Wybierz Nowy.
  3. W polu Dedykowana nazwa puli SQL wybierz pozycję SQLPOOL1.
  4. W polu Poziom wydajności wybierz pozycjęDW100C.
  5. Wybierz pozycję Przeglądanie + tworzenie>Utwórz. Dedykowana pula SQL będzie gotowa w ciągu kilku minut.

Dedykowana pula SQL jest skojarzona z bazą danych SQL o nazwie SQLPOOL1.

  1. Przejdź do obszaru roboczego danych>.
  2. Powinna zostać wyświetlona baza danych o nazwie SQLPOOL1. Jeśli go nie widzisz, wybierz pozycję Odśwież.

Dedykowana pula SQL zużywa rozliczane zasoby, o ile jest aktywna. Możesz wstrzymać pulę później, aby zmniejszyć koszty.

Uwaga

Podczas tworzenia nowej dedykowanej puli SQL (dawniej SQL DW) w obszarze roboczym zostanie otwarta dedykowana strona aprowizacji puli SQL. Aprowizacja zostanie zainicjowana na serwerze logicznym SQL.

Ładowanie danych taksówek w Nowym Jorku do SQLPOOL1

  1. W programie Synapse Studio przejdź do centrum Programowanie , wybierz + przycisk, aby dodać nowy zasób, a następnie utwórz nowy skrypt SQL.

  2. Wybierz pulę (pulę SQLPOOL1 utworzoną w kroku 1 tego samouczka) w Połączenie, aby wyświetlić listę rozwijaną powyżej skryptu.

  3. Wprowadź następujące kod:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Wybierz przycisk Uruchom, aby wykonać skrypt.

  5. Ten skrypt kończy się w mniej niż 60 sekundach. Ładuje 2 miliony wierszy danych nowojorskich taksówek do tabeli o nazwie dbo.NYCTaxiTripSmall.

Eksplorowanie danych dotyczących taksówek w dedykowanej puli SQL

  1. W programie Synapse Studio przejdź do centrum danych .

  2. Przejdź do SQLPOOL1>Tabele.

  3. Kliknij prawym przyciskiem myszy bazę danych. Tabela NYCTaxiTripSmall i wybierz pozycję Nowy skrypt>SQL Wybierz 100 pierwszych wierszy.

  4. Zaczekaj na utworzenie nowego skryptu SQL i uruchomienie go.

  5. W górnej części skryptu SQL Połączenie zostanie automatycznie ustawiona pula SQL o nazwie SQLPOOL1.

  6. Zastąp tekst skryptu SQL tym kodem i uruchom go.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    To zapytanie tworzy tabelę dbo.PassengerCountStats z zagregowanymi danymi z trip_distance pola, a następnie wykonuje zapytanie dotyczące nowej tabeli. Dane pokazują, jak łączna odległość podróży i średnia odległość podróży odnoszą się do liczby pasażerów.

  7. W oknie wyników skryptu SQL zmień widok na Wykres, aby wyświetlić wizualizację wyników jako wykres liniowy. Zmień kolumnę Category na PassengerCount.

Następny krok