Analýza dat s využitím vyhrazených fondů SQL

V tomto kurzu můžete pomocí dat taxislužby NYC prozkoumat možnosti vyhrazeného fondu SQL.

Vytvoření vyhrazeného fondu SQL

  1. V nástroji Synapse Studio v levém podokně vyberte Spravovat>fondy SQL v části Fondy Analytics.
  2. Vyberte Nový.
  3. Jako název vyhrazeného fondu SQL vyberte SQLPOOL1.
  4. Pro úroveň výkonu zvolte DW100C.
  5. Vyberte Zkontrolovat a vytvořit>Vytvořit. Vyhrazený fond SQL bude připravený během několika minut.

Vyhrazený fond SQL je přidružený k databázi SQL, která se také nazývá SQLPOOL1.

  1. Přejděte do datového>pracovního prostoru.
  2. Měla by se zobrazit databáze s názvem SQLPOOL1. Pokud ji nevidíte, vyberte Aktualizovat.

Vyhrazený fond SQL spotřebovává fakturovatelné prostředky, pokud je aktivní. Pokud chcete snížit náklady, můžete fond později pozastavit.

Poznámka:

Při vytváření nového vyhrazeného fondu SQL (dříve SQL DW) ve vašem pracovním prostoru se otevře stránka zřizování vyhrazeného fondu SQL. Zřizování proběhne na logickém SQL serveru.

Načtení dat taxislužby NYC do SQLPOOL1

  1. V nástroji Synapse Studio přejděte do centra Vývoj , vyberte + tlačítko pro přidání nového prostředku a pak vytvořte nový skript SQL.

  2. Vyberte fond SQLPOOL1 (fond vytvořený v kroku 1 tohoto kurzu) v Připojení a rozevírací seznam nad skriptem.

  3. Zadejte následující kód:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Vyberte tlačítko Spustit a spusťte skript.

  5. Tento skript se dokončí za méně než 60 sekund. Do tabulky s názvem dbo.NYCTaxiTripSmallnačte 2 miliony řádků dat taxislužby NYC.

Prozkoumání dat taxi v NYC ve vyhrazeném fondu SQL

  1. V synapse Studiu přejděte do datového centra.

  2. Přejděte na SQLPOOL1>tabulky.

  3. Klikněte pravým tlačítkem na dbo. Tabulka NYCTaxiTripSmall a vyberte Nový skript>SQL Select TOP 100 Řádků.

  4. Počkejte, než se vytvoří a spustí nový skript SQL.

  5. V horní části skriptu SQL Připojení se automaticky nastaví na fond SQL s názvem SQLPOOL1.

  6. Nahraďte text skriptu SQL tímto kódem a spusťte ho.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Tento dotaz vytvoří tabulku dbo.PassengerCountStats s agregovanými daty z trip_distance pole a pak se na novou tabulku dotazuje. Data ukazují, jak celková vzdálenost jízdy a průměrná vzdálenost jízdy souvisí s počtem cestujících.

  7. V okně výsledku skriptu SQL změňte zobrazení na Graf a zobrazte vizualizaci výsledků jako spojnicový graf. Změňte sloupec Kategorie na PassengerCount.

Další krok