Analisar dados com pools de SQL dedicados

Neste tutorial, use os dados dos táxis de Nova York para explorar as funcionalidades do pool de SQL dedicado.

Criar um pool de SQL dedicado

  1. No Synapse Studio, no painel do lado esquerdo, selecione Gerenciar>Pools de SQL em pools de Análise.
  2. Selecione Novo.
  3. Em Nome do pool de SQL dedicado, selecione SQLPOOL1.
  4. Em Nível de desempenho, escolha DW100C.
  5. Selecione Examinar + criar>Criar. Seu pool de SQL dedicado estará pronto em alguns minutos.

Seu pool de SQL dedicado está associado a um banco de dados SQL que também é chamado de SQLPOOL1.

  1. Acesse Dados>Workspace.
  2. Você deverá ver um banco de dados chamado SQLPOOL1. Se você não o vir, selecione Atualizar.

Um pool de SQL dedicado consome recursos faturáveis desde que ele esteja ativo. Você pode pausar o pool posteriormente para reduzir custos.

Observação

Quando você criar um pool de SQL dedicado (antigo SQL DW) em seu workspace, a página de provisionamento do pool de SQL dedicado será aberta. O provisionamento ocorrerá no SQL Server lógico.

Carregar os dados de Táxi de Nova York no SQLPOOL1

  1. No Synapse Studio, navegue até o hub Desenvolver, selecione o botão + para adicionar o novo recurso e crie um novo script SQL.

  2. Selecione o pool SQLPOOL1 (pool criado em ETAPA 1 deste tutorial) em Conectar à lista suspensa acima do script.

  3. Insira o seguinte código:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Clique no botão Executar para executar o script.

  5. Esse script será concluído em menos de 60 segundos. Ele carrega 2 milhões de linhas de dados dos táxis de Nova York em uma tabela chamada dbo.NYCTaxiTripSmall.

Explorar os dados de táxis de Nova York no pool de SQL dedicado

  1. No Synapse Studio, acesse o hub Dados.

  2. Acesse SQLPOOL1>Tabelas.

  3. Clique com o botão direito do mouse na tabela dbo.NYCTaxiTripSmall e selecione Novo Script de SQL>Selecionar as Primeiras 100 Linhas.

  4. Aguarde enquanto um novo script SQL é criado e executado.

  5. Na parte superior do script SQL Conectar ao é automaticamente definido como o pool de SQL chamado SQLPOOL1.

  6. Substitua o texto do script de SQL por esse código e execute-o.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Essa consulta cria uma tabela dbo.PassengerCountStats com dados agregados do campo trip_distance e consulta a nova tabela. Essa consulta mostra como as distâncias totais de viagem e a distância média da viagem estão relacionadas ao número de passageiros.

  7. Na janela de resultados do script de SQL, altere a opção Exibição para Gráfico para uma visualização dos resultados como um gráfico de linhas. Altere Coluna categoria para PassengerCount.

Próxima etapa