Exécuter des requêtes fédérées sur Microsoft Azure Synapse
Cet article décrit comment configurer Lakehouse Federation pour exécuter des requêtes fédérées sur les données Azure Synapse (SQL Data Warehouse) qui ne sont pas gérées par Azure Databricks. Pour en savoir plus sur Lakehouse Federation, consultez l’article Qu’est-ce que Lakehouse Federation ?.
Pour vous connecter à une base de données Azure Synapse (SQL Data Warehouse) à l’aide de Lakehouse Federation, vous devez créer les éléments suivants dans votre metastore Azure Databricks Unity Catalog :
- Une connexion à votre base de données Azure Synapse (SQL Data Warehouse).
- Un catalogue étranger qui reflète votre base de données Azure Synapse (SQL Data Warehouse) dans Unity Catalog afin que vous puissiez utiliser la syntaxe de requête Unity Catalog et les outils de gouvernance des données pour gérer l'accès des utilisateurs Azure Databricks à la base de données.
Avant de commencer
Conditions requises pour l’espace de travail :
- Espace de travail activé pour Unity Catalog.
Voici les exigences de calcul à respecter :
- Connectivité réseau de votre cluster Databricks Runtime ou de votre entrepôt SQL aux systèmes de base de données cibles. Consultez l’article Recommandations de mise en réseau pour Lakehouse Federation.
- Les clusters Azure Databricks doivent utiliser Databricks Runtime 13.3 LTS (ou une version ultérieure) et le mode d’accès partagé ou mono-utilisateur.
- Les entrepôts SQL doivent être Pro ou Serverless et doivent utiliser la version 2023.40 ou ultérieure.
Autorisations requises :
- Pour créer une connexion, vous devez être un administrateur de metastore ou un utilisateur disposant du privilège
CREATE CONNECTION
sur le metastore Unity Catalog attaché à l’espace de travail. - Pour créer un catalogue étranger, vous devez disposer de l’autorisation
CREATE CATALOG
sur le metastore et être le propriétaire de la connexion ou disposer du privilègeCREATE FOREIGN CATALOG
sur la connexion.
Des exigences d’autorisation supplémentaires sont spécifiées dans chaque section basée sur les tâches qui suit.
Créer une connexion
Une connexion spécifie un chemin d’accès et des informations d’identification pour accéder à un système de base de données externe. Pour créer une connexion, vous pouvez utiliser l’Explorateur de catalogues ou la commande SQL CREATE CONNECTION
dans un notebook Azure Databricks ou l’éditeur de requête SQL Databricks.
Remarque
Vous pouvez également utiliser l’API REST Databricks ou l’interface CLI Databricks pour créer une connexion. Consultez POST /api/2.1/unity-catalog/connections et Commandes Unity Catalog.
Autorisations requises : administrateur de metastore ou utilisateur disposant du privilège CREATE CONNECTION
.
Explorateur de catalogues
Dans votre espace de travail Azure Databricks, cliquez sur Catalogue.
En haut du volet Catalogue, cliquez sur l’icône Ajouter, puis sélectionnez Ajouter une connexion dans le menu.
Sinon, dans la page Accès rapide, cliquez sur le bouton Données externes >, accédez à l’onglet Connexions, puis cliquez sur Créer une connexion.
Entrez un nom de connexion convivial.
Sélectionnez un type de connexionSQLDW.
Entrez les propriétés de connexion suivantes pour votre instance Azure Synapse.
- Hôte : Par exemple,
sqldws-demo.database.windows.net
. - Port : par exemple,
1433
- trustServerCertificate : la valeur par défaut est
false
. Quand la valeur esttrue
, la couche de transport utilise SSL pour chiffrer le canal et contourne la chaîne de certificat pour valider l’approbation. Utilisez la valeur par défaut, sauf si vous avez besoin de contourner la validation d’approbation. - Utilisateur
- Mot de passe
- Hôte : Par exemple,
(Facultatif) Cliquez sur Tester la connexion pour vérifier qu’elle fonctionne.
(Facultatif) Ajoutez un commentaire.
Cliquez sur Créer.
SQL
Exécutez la commande suivante dans un notebook ou dans l’éditeur de requête SQL Databricks.
CREATE CONNECTION <connection-name> TYPE sqldw
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
Nous vous recommandons d’utiliser des secrets Azure Databricks au lieu de chaînes de texte en clair pour les valeurs sensibles telles que les informations d’identification. Par exemple :
CREATE CONNECTION <connection-name> TYPE sqldw
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
Pour obtenir des informations sur la configuration des secrets, consultez l’article Gestion des secrets.
Créer un catalogue étranger
Un catalogue étranger reflète une base de données dans un système de données externe afin que vous puissiez interroger et gérer l’accès aux données de cette base de données à l’aide d’Azure Databricks et Unity Catalog. Pour créer un catalogue étranger, vous utilisez une connexion à la source de données qui a déjà été définie.
Pour créer un catalogue étranger, vous pouvez utiliser Catalog Explorer ou la commande SQL CREATE FOREIGN CATALOG
dans un notebook Azure Databricks ou dans l’Éditeur de requête SQL.
Remarque
Vous pouvez également utiliser l’API REST Databricks ou l’interface CLI Databricks pour créer un catalogue. Consultez POST /api/2.1/unity-catalog/catalogs et les commandes du catalogue Unity.
Autorisations requises : autorisation CREATE CATALOG
sur le metastore, et être propriétaire de la connexion ou disposer du privilège CREATE FOREIGN CATALOG
sur la connexion.
Explorateur de catalogues
Dans votre espace de travail Azure Databricks, cliquez sur Catalogue pour ouvrir l’Explorateur de catalogue.
En haut du volet Catalogue, cliquez sur l’icône Ajouter, puis sélectionnez Ajouter un catalogue dans le menu.
Sinon, dans la page Accès rapide, cliquez sur le bouton Catalogues, puis sur le bouton Créer un catalogue.
Suivez les instructions pour créer des catalogues étrangers dans Créer des catalogues.
SQL
Exécutez la commande SQL suivante dans un notebook ou dans l’éditeur de requête SQL. Les éléments entre chevrons sont optionnels. Remplacez les valeurs d’espace réservé :
<catalog-name>
: nom du catalogue dans Azure Databricks.<connection-name>
: objet Connection qui spécifie la source de données, le chemin et les informations d’identification d’accès.<database-name>
: nom de la base de données que vous souhaitez refléter en tant que catalogue dans Azure Databricks.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');
Pushdowns pris en charge
Les pushdowns suivants sont pris en charge :
- Filtres
- Projections
- Limite
- Agrégats (Moyenne, Nombre, Max, Min, StddevPop, StddevSamp, Sum, VarianceSamp)
- Fonctions (fonctions arithmétique et autres fonctions diverses, telles que Alias, Cast, SortOrder)
- Tri
Les pushdowns suivants ne sont pas pris en charge :
- Jointures
- Fonctions Windows
Mappages de types de données
Lorsque vous lisez de Synapse/SQL Data Warehouse vers Spark, les types de données sont mappés comme suit :
Type de synapse | Type Spark |
---|---|
décimal, argent, numérique, petite monnaie | DecimalType |
SMALLINT | ShortType |
tinyint | ByteType |
int | IntegerType |
bigint | LongType |
real | FloatType |
float | DoubleType |
char, nchar, ntext, nvarchar, texte, identifiant unique, varchar, xml | StringType |
binary, geography, geometry, image, timestamp, udt, varbinary | BinaryType |
bit | BooleanType |
Date | DateType |
datetime, datetime, smalldatetime, time | TimestampType/TimestampNTZType* |
*Lorsque vous lisez depuis Synapse/SQL Data Warehouse (SQLDW), les SQLDW datetimes
sont mappés à Spark TimestampType
si preferTimestampNTZ = false
(par défaut). SQLDW datetimes
est mappé à TimestampNTZType
si preferTimestampNTZ = true
.