Analyser des données avec un pool SQL serverless

Article
06/01/2023

Dans ce tutoriel, vous allez apprendre à analyser des données avec un pool SQL serverless.

Pool SQL serverless intégré

Les pools SQL serverless vous permettent d’utiliser SQL sans avoir de capacité de réserve. La facturation du pool SQL serverless est basée sur la quantité de données traitées pour exécuter la requête, et non sur le nombre de nœuds utilisés pour exécuter la requête.

Chaque espace de travail est fourni avec un pool SQL serverless préconfiguré, dit Intégré.

Analyser les données de NYC Taxi avec un pool SQL serverless

Notes

Vérifiez que vous avez placé les exemples de données dans le compte de stockage principal.

Dans Synapse Studio, accédez au hub Développer
Un nouveau script SQL est alors créé.

Collez le code suivant dans le script.

SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
        FORMAT='PARQUET'
    ) AS [result]

Sélectionnez Exécuter.

L’exploration des données n’est qu’un scénario simplifié qui vous permet de comprendre les caractéristiques de base de vos données. Découvrez-en plus sur l’exploration et l’analyse des données dans ce tutoriel.

Créer une base de données d’exploration des données

Vous pouvez parcourir le contenu des fichiers directement par le biais de la base de données master. Pour certains scénarios simples d’exploration des données, vous n’avez pas besoin de créer une base de données distincte. En revanche, si vous approfondissez l’exploration des données, vous risquez d’avoir besoin de créer des objets utilitaires, comme les suivants :

Sources de données externes qui représentent les références nommées pour les comptes de stockage.
Informations d’identification étendues à la base de données qui vous permettent de spécifier le mode d’authentification auprès d’une source de données externe.
Utilisateurs de base de données disposant des autorisations nécessaires pour accéder à des sources de données ou des objets de base de données.
Vues, procédures et fonctions utilitaires que vous pouvez utiliser dans les requêtes.

Utilisez la base de données master pour créer une base de données distincte pour les objets de base de données personnalisés. Les objets de base de données personnalisés ne peuvent pas être créés dans la base de données master.
```
CREATE DATABASE DataExplorationDB 
                COLLATE Latin1_General_100_BIN2_UTF8
```
Important

Utilisez un classement avec un suffixe _UTF8 pour vérifier que le texte UTF-8 est correctement converti en colonnes VARCHAR. Latin1_General_100_BIN2_UTF8 offre les meilleures performances dans les requêtes qui lisent des données issues de fichiers Parquet et de conteneurs Azure Cosmos DB. Pour plus d’informations sur la modification des classements, consultez Types de classements pris en charge pour Synapse SQL.
Basculez le contexte de la base de données de master à DataExplorationDB en utilisant la commande suivante. Vous pouvez également utiliser le contrôle d’interface utilisateur utiliser la base de données pour changer de base de donnée active :
```
USE DataExplorationDB
```
À partir de DataExplorationDB, créez des objets utilitaires tels que des informations d’identification et des sources de données.
```
CREATE EXTERNAL DATA SOURCE ContosoLake
WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
```
Notes

Une source de données externe peut être créée sans informations d’identification. Si aucune information d’identification n’existe, l’identité de l’appelant est utilisée pour accéder à la source des données externes.
Utilisez éventuellement la base de données DataExplorationDB nouvellement générée pour créer une connexion pour un utilisateur dans DataExplorationDB qui va accéder aux données externes :
```
CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
```
Créez ensuite un utilisateur de base de données dans DataExplorationDB pour la connexion ci-dessus et octroyez-lui l’autorisation ADMINISTER DATABASE BULK OPERATIONS.
```
CREATE USER data_explorer FOR LOGIN data_explorer;
GO
GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
GO
```

Explorez le contenu du fichier à l’aide du chemin relatif et de la source de données :

SELECT
    TOP 100 *
FROM
    OPENROWSET(
            BULK '/users/NYCTripSmall.parquet',
            DATA_SOURCE = 'ContosoLake',
            FORMAT='PARQUET'
    ) AS [result]

Publiez vos modifications dans l’espace de travail.

La base de données d’exploration des données est tout simplement un espace réservé dans lequel vous pouvez stocker vos objets utilitaires. Un pool Synapse SQL vous permet d’effectuer bien d’autres tâches et de créer un entrepôt de données logique : une couche relationnelle créée par-dessus des sources de données Azure. En savoir plus sur la création d’une base de données de l'entrepôt de données logique dans ce tutoriel.

Étapes suivantes

Analyser des données avec un pool Spark serverless

Partage via