Análisis de datos con grupos de SQL dedicados

En este tutorial, use los datos de NYC Taxi para explorar las funcionalidades de un grupo de SQL dedicado.

Creación de un grupo de SQL dedicado

  1. En Synapse Studio, en el panel izquierdo, seleccione Administrar>Grupos de SQL en Grupos de análisis.
  2. Seleccione Nuevo.
  3. En Nombre del grupo de SQL dedicado seleccione SQLPOOL1.
  4. En Nivel de rendimiento seleccione DW100C.
  5. Seleccione Revisar y crear>Crear. El grupo de SQL dedicado estará listo en unos minutos.

El grupo de SQL dedicado se asocia con una base de datos SQL, que también se denomina SQLPOOL1.

  1. Vaya a Datos>Área de trabajo.
  2. Debería ver una base de datos denominada SQLPOOL1. Si no la ve, seleccione Actualizar.

Los grupos de SQL dedicados consumen recursos facturables mientras están activos. Puede pausar los grupos más adelante para reducir los costos.

Nota

Al crear un nuevo grupo de SQL dedicado (anteriormente SQL DW) en el área de trabajo, se abrirá la página de aprovisionamiento del grupo de SQL dedicado. El aprovisionamiento se llevará a cabo en el servidor SQL lógico.

Carga de los datos NYC Taxi en SQLPOOL1

  1. En Synapse Studio, vaya al centro de desarrollo, seleccione el botón + para agregar un nuevo recurso y cree un nuevo script SQL.

  2. Seleccione el grupo SQLPOOL1 (creado en el PASO 1 de este tutorial) en la lista desplegable Conectar a del script.

  3. Escriba el siguiente código:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Seleccione el botón Ejecutar para ejecutar el script.

  5. Este script finaliza en menos de 60 segundos. Carga dos millones filas de datos de NYC Taxi en una tabla denominada dbo.NYCTaxiTripSmall.

Exploración de los datos de NYC Taxi en el grupo de SQL dedicado

  1. En Synapse Studio, vaya al centro Data (Datos).

  2. Vaya a SQLPOOL1>Tablas.

  3. Haga clic con el botón derecho en la tabla dbo.NYCTaxiTripSmall y seleccione New SQL Script>Select TOP 100 Rows (Nuevo script SQL > Seleccionar 100 primeras filas).

  4. Espere mientras se crea un nuevo script de SQL y se ejecuta.

  5. En la parte superior del script de SQL, en Connect to (Conectar a) está seleccionado automáticamente el grupo de SQL llamado SQLPOOL1.

  6. Reemplace el texto del script de SQL por este código y ejecútelo.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Esta consulta crea una tabla dbo.PassengerCountStats con datos agregados del campo trip_distance y, a continuación, consulta la nueva tabla. Los datos muestran la relación entre las distancias recorridas totales y la distancia media recorrida, y el número de pasajeros.

  7. En la ventana de resultados del script de SQL, cambie el valor de View (Vista) a Chart (Gráfico) para ver los resultados en un gráfico de líneas. Cambio al columna Categoría a PassengerCount.

Paso siguiente