Analyser des données avec des pools SQL dédiés

Dans ce tutoriel, utilisez les données NYC Taxi pour explorer les fonctionnalités d’un pool SQL dédié.

Créer un pool SQL dédié

  1. Dans Synapse Studio, dans le volet de gauche, sélectionnez Gérer>Pools SQL sous Pools analytiques.
  2. Cliquez sur Nouveau.
  3. Pour Nom du pool SQL dédié, sélectionnez SQLPOOL1.
  4. Pour Niveau de performances, choisissez DW100C.
  5. Sélectionnez Vérifier + créer>Créer. Votre pool SQL dédié sera prêt en quelques minutes.

Votre pool SQL dédié est associé à une base de données SQL également appelée SQLPOOL1.

  1. Accédez à Données>Espace de travail.
  2. Vous devez voir une base de données nommée SQLPOOL1. Si vous ne le voyez pas, sélectionnez Actualiser.

Tant qu’il est actif, un pool SQL dédié consomme des ressources facturables. Vous pouvez suspendre le pool plus tard pour réduire les coûts.

Notes

Quand vous créez un pool SQL dédié (anciennement SQL DW) dans votre espace de travail, la page de provisionnement des pools SQL s’ouvre. Le provisionnement s’effectue sur le serveur SQL logique.

Charger les données NYC Taxi dans SQLPOOL1

  1. Dans Synapse Studio, accédez au hub Développer, sélectionnez le bouton + pour ajouter une nouvelle ressource, puis créez un script SQL.

  2. Sélectionnez le pool SQLPOOL1 (pool créé à l’étape 1 de ce tutoriel) dans la liste déroulante Se connecter à au-dessus du script.

  3. Entrez le code suivant :

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
    )
    
  4. Sélectionnez le bouton Exécuter pour exécuter le script.

  5. Ce script met moins de 60 secondes à s’exécuter. Il charge 2 millions lignes de données NYC Taxi dans une table appelée dbo.NYCTaxiTripSmall.

Explorer les données NYC Taxi dans le pool SQL dédié

  1. Dans Synapse Studio, accédez au hub Données.

  2. Accédez à SQLPOOL1>Tables.

  3. Cliquez avec le bouton droit sur la table dbo.NYCTaxiTripSmall, puis sélectionnez Nouveau script SQL>Sélectionner les 100 premières lignes.

  4. Patientez pendant la création et l’exécution du nouveau script SQL.

  5. En haut du script SQL, notez que la liste déroulante Se connecter à est automatiquement définie sur le pool SQL appelé SQLPOOL1.

  6. Remplacez le texte du script SQL par ce code et exécutez-le.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Cette requête crée une table dbo.PassengerCountStats avec des données agrégées à partir du champ trip_distance, puis interroge la nouvelle table. Les données montrent de quelle manière les distances totales et la distance moyenne des trajets sont liées au nombre de passagers.

  7. Dans la fenêtre de résultat du script SQL, changez la Vue à Graphique pour visualiser les résultats sous forme de graphique en courbes. Choisissez PassengerCount comme Colonne de catégorie.

Étape suivante