Gegevens analyseren met toegewezen SQL-pools

In deze zelfstudie gebruikt u de NYC Taxi-gegevens om de mogelijkheden van een toegewezen SQL-pool te verkennen.

Een toegewezen SQL-pool maken

  1. Selecteer in Synapse Studio in het linkerdeelvenster SQL-pools beheren>onder Analysepools.
  2. Selecteer Nieuw.
  3. Selecteer SQLPOOL1voor de naam van de toegewezen SQL-pool.
  4. Kies DW100C voor prestatieniveau.
  5. Selecteer Beoordelen en maken>Maken. Uw toegewezen SQL-pool is binnen een paar minuten klaar.

Uw toegewezen SQL-pool is gekoppeld aan een SQL-database die ook wel wordt genoemd SQLPOOL1.

  1. Navigeer naar de gegevenswerkruimte>.
  2. U ziet nu een database met de naam SQLPOOL1. Als u dit niet ziet, selecteert u Vernieuwen.

Een toegewezen SQL-pool verbruikt factureerbare resources zolang deze worden uitgevoerd. U kunt de pool later onderbreken om de kosten te verlagen.

Notitie

Bij het maken van een nieuwe toegewezen SQL-pool (voorheen SQL DW) in uw werkruimte, wordt de pagina voor het inrichten van de toegewezen SQL-pool geopend. Het inrichten vindt plaats op de logische SQL-server.

Laad de NYC Taxi-gegevens in SQLPOOL1

  1. Navigeer in Synapse Studio naar de hub Ontwikkelen , selecteer de + knop om nieuwe resource toe te voegen en maak vervolgens een nieuw SQL-script.

  2. Selecteer in Verbinding maken de vervolgkeuzelijst boven het script de pool SQLPOOL1 (pool gemaakt in STAP 1 van deze zelfstudie).

  3. Voer de volgende code in:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Selecteer de knop Uitvoeren om het script uit te voeren.

  5. Dit script wordt in minder dan 60 seconden voltooid. Het laadt 2 miljoen rijen van NYC Taxi-gegevens in een tabel met de naam dbo.NYCTaxiTripSmall.

De NYC-taxigegevens in de toegewezen SQL-pool verkennen

  1. Ga in Synapse Studio naar de hub Gegevens.

  2. Ga naar SQLPOOL1>Tabellen.

  3. Klik met de rechtermuisknop op de dbo. NYCTaxiTripSmall-tabel en selecteer New SQL Script>Select TOP 100 Rows.

  4. Wacht tot er een nieuw SQL-script wordt gemaakt en uitgevoerd.

  5. Boven aan het SQL-script Verbinding maken wordt automatisch ingesteld op de SQL-pool met de naam SQLPOOL1.

  6. Vervang de tekst van het SQL-script door deze code en voer deze uit.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Met deze query maakt u een tabel dbo.PassengerCountStats met geaggregeerde gegevens uit het trip_distance veld en voert vervolgens een query uit op de nieuwe tabel. De gegevens laten zien hoe de totale reisafstanden en de gemiddelde reisafstand betrekking hebben op het aantal passagiers.

  7. In het resultatenvenster van het SQL-script wijzigt u de Weergave in Grafiek om een visualisatie van de resultaten weer te geven als een lijndiagram. De kolom Categorie wijzigen in PassengerCount.

Volgende stap