Analyser des données avec un pool SQL serverless
Dans ce tutoriel, vous allez apprendre à analyser des données avec un pool SQL serverless.
Pool SQL serverless intégré
Les pools SQL serverless vous permettent d’utiliser SQL sans avoir de capacité de réserve. La facturation du pool SQL serverless est basée sur la quantité de données traitées pour exécuter la requête, et non sur le nombre de nœuds utilisés pour exécuter la requête.
Chaque espace de travail est fourni avec un pool SQL serverless préconfiguré, dit Intégré.
Analyser les données de NYC Taxi avec un pool SQL serverless
Notes
Vérifiez que vous avez placé les exemples de données dans le compte de stockage principal.
Dans Synapse Studio, accédez au hub Développer
Un nouveau script SQL est alors créé.
Collez le code suivant dans le script. (Mettez à jour
contosolake
avec le nom de votre compte de stockage etusers
avec le nom de votre conteneur.)SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet', FORMAT='PARQUET' ) AS [result]
Sélectionnez Exécuter.
L’exploration des données n’est qu’un scénario simplifié qui vous permet de comprendre les caractéristiques de base de vos données. Découvrez-en plus sur l’exploration et l’analyse des données dans ce tutoriel.
Créer une base de données d’exploration des données
Vous pouvez parcourir le contenu des fichiers directement par le biais de la base de données master
. Pour certains scénarios simples d’exploration des données, vous n’avez pas besoin de créer une base de données distincte.
En revanche, si vous approfondissez l’exploration des données, vous risquez d’avoir besoin de créer des objets utilitaires, comme les suivants :
- Sources de données externes qui représentent les références nommées pour les comptes de stockage.
- Informations d’identification étendues à la base de données qui vous permettent de spécifier le mode d’authentification auprès d’une source de données externe.
- Utilisateurs de base de données disposant des autorisations nécessaires pour accéder à des sources de données ou des objets de base de données.
- Vues, procédures et fonctions utilitaires que vous pouvez utiliser dans les requêtes.
Utilisez la base de données
master
pour créer une base de données distincte pour les objets de base de données personnalisés. Les objets de base de données personnalisés ne peuvent pas être créés dans la base de donnéesmaster
.CREATE DATABASE DataExplorationDB COLLATE Latin1_General_100_BIN2_UTF8
Important
Utilisez un classement avec un suffixe
_UTF8
pour vérifier que le texte UTF-8 est correctement converti en colonnesVARCHAR
.Latin1_General_100_BIN2_UTF8
offre les meilleures performances dans les requêtes qui lisent des données issues de fichiers Parquet et de conteneurs Azure Cosmos DB. Pour plus d’informations sur le changement de classements, consultez Types de classements pris en charge pour Synapse SQL.Basculez le contexte de la base de données de
master
àDataExplorationDB
en utilisant la commande suivante. Vous pouvez également utiliser le contrôle d’interface utilisateur utiliser la base de données pour changer de base de donnée active :USE DataExplorationDB
À partir de
DataExplorationDB
, créez des objets utilitaires tels que des informations d’identification et des sources de données.CREATE EXTERNAL DATA SOURCE ContosoLake WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
Remarque
Une source de données externe peut être créée sans informations d’identification. Si aucune information d’identification n’existe, l’identité de l’appelant est utilisée pour accéder à la source des données externes.
Utilisez éventuellement la base de données
DataExplorationDB
nouvellement générée pour créer une connexion pour un utilisateur dansDataExplorationDB
qui va accéder aux données externes :CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
Créez ensuite un utilisateur de base de données dans
DataExplorationDB
pour la connexion ci-dessus et octroyez-lui l’autorisationADMINISTER DATABASE BULK OPERATIONS
.CREATE USER data_explorer FOR LOGIN data_explorer; GO GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer; GO
Explorez le contenu du fichier à l’aide du chemin relatif et de la source de données :
SELECT TOP 100 * FROM OPENROWSET( BULK '/users/NYCTripSmall.parquet', DATA_SOURCE = 'ContosoLake', FORMAT='PARQUET' ) AS [result]
Publiez vos modifications dans l’espace de travail.
La base de données d’exploration des données est tout simplement un espace réservé dans lequel vous pouvez stocker vos objets utilitaires. Un pool Synapse SQL vous permet d’effectuer bien d’autres tâches et de créer un entrepôt de données logique : une couche relationnelle créée par-dessus des sources de données Azure. En savoir plus sur la création d’une base de données de l'entrepôt de données logique dans ce tutoriel.