Analysieren von Daten mit dedizierten SQL-Pools

In diesem Tutorial werden die NYC Taxi-Daten verwendet, um die Funktionen eines dedizierten SQL-Pools zu untersuchen.

Erstellen eines dedizierten SQL-Pools

  1. Wählen Sie in Synapse Studio im linken Bereich unter Analytics pools (Analysepools) die Optionen Verwalten>SQL-Pools aus.
  2. Wählen Sie Neu aus.
  3. Wählen Sie unter Name des dedizierten SQL-Pools den Namen SQLPOOL1 aus.
  4. Wählen Sie für Leistungsebene die Option DW100C aus.
  5. Wählen Sie Bewerten + erstellen>Erstellen aus. Ihr dedizierter SQL-Pool steht in wenigen Minuten zur Verfügung.

Ihr dedizierter SQL-Pool ist einer SQL-Datenbank zugeordnet, die auch als SQLPOOL1 bezeichnet wird.

  1. Navigieren Sie zu Daten>Arbeitsbereich.
  2. Eine Datenbank mit dem Namen SQLPOOL1 sollte angezeigt werden. Wird sie nicht angezeigt, klicken Sie auf Aktualisieren.

Ein dedizierter SQL-Pool nutzt abrechenbare Ressourcen, solange er aktiv ist. Sie können den Pool später anhalten, um die Kosten zu senken.

Hinweis

Wenn Sie in Ihrem Arbeitsbereich einen neuen dedizierten SQL-Pool (ehemals SQL DW) erstellen, wird die Bereitstellungsseite für den dedizierten SQL-Pool geöffnet. Die Bereitstellung erfolgt auf dem logischen SQL-Server.

Laden der NYC Taxi-Daten in SQLPOOL1

  1. Navigieren Sie in Synapse Studio zum Hub Entwickeln, klicken Sie auf die Schaltfläche +, um eine neue Ressource hinzuzufügen, und erstellen Sie dann ein neues SQL-Skript.

  2. Wählen Sie in der Dropdownliste Verbinden mit oberhalb des Skripts den Pool SQLPOOL1 (der Pool wurde in SCHRITT 1 dieses Tutorials erstellt) aus.

  3. Geben Sie den folgenden Code ein:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Klicken Sie auf die Schaltfläche Ausführen, um das Skript auszuführen.

  5. Dieses Skript wird weniger als 60 Sekunden abgeschlossen. Es lädt zwei Millionen Zeilen NYC Taxi-Daten in eine Tabelle mit dem Namen dbo.NYCTaxiTripSmall.

Untersuchen der NYC Taxi-Daten im dedizierten SQL-Pool

  1. Navigieren Sie in Synapse Studio zum Hub Daten.

  2. Navigieren Sie zu SQLPOOL1>Tabellen.

  3. Klicken Sie mit der rechten Maustaste auf die Tabelle dbo.NYCTaxiTripSmall, und wählen Sie Neues SQL-Skript>OBERSTE 100 Zeilen auswählen aus.

  4. Warten Sie, während ein neues SQL-Skript erstellt und ausgeführt wird.

  5. Am oberen Rand des SQL-Skripts ist Verbinden mit automatisch auf den SQL-Pool mit dem Namen SQLPOOL1 festgelegt.

  6. Ersetzen Sie den Text des SQL-Skripts durch diesen Code, und führen Sie ihn aus.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Diese Abfrage erstellt die Tabelle dbo.PassengerCountStats mit aggregierten Daten aus dem Feld trip_distance und fragt dann die neue Tabelle ab. Die Daten zeigen, wie die Gesamtzahl der Fahrtstrecken und die durchschnittliche Fahrtstrecke mit der Anzahl der Fahrgäste in Beziehung stehen.

  7. Ändern Sie im Ergebnisfenster des SQL-Skripts die Ansicht in Diagramm, um eine Visualisierung der Ergebnisse als Liniendiagramm anzuzeigen. Ändern Sie Kategoriespalte in PassengerCount.

Nächster Schritt