Exécuter des requêtes fédérées sur MySQL

Article
07/26/2024

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article explique comment configurer Lakehouse Federation pour exécuter des requêtes fédérées sur des données MySQL non gérées par Azure Databricks. Pour en savoir plus sur Lakehouse Federation, consultez l’article Qu’est-ce que Lakehouse Federation ?

Pour vous connecter à votre base de données MySQL à l’aide de Lakehouse Federation, vous devez créer les éléments suivants dans votre metastore Azure Databricks Unity Catalog :

Une connexion à votre base de données MySQL.
Un catalogue étranger qui reflète votre base de données MySQL dans Unity Catalog afin que vous puissiez utiliser la syntaxe de requête et les outils de gouvernance des données Unity Catalog pour gérer l’accès utilisateur Azure Databricks à la base de données.

Avant de commencer

Conditions requises pour l’espace de travail :

Espace de travail activé pour Unity Catalog.

Voici les exigences de calcul à respecter :

Connectivité réseau de votre cluster Databricks Runtime ou de votre entrepôt SQL aux systèmes de base de données cibles. Consultez l’article Recommandations de mise en réseau pour Lakehouse Federation.
Les clusters Azure Databricks doivent utiliser Databricks Runtime 13.3 LTS (ou une version ultérieure) et le mode d’accès partagé ou mono-utilisateur.
Les entrepôts SQL doivent être Pro ou Serverless et doivent utiliser la version 2023.40 ou ultérieure.

Autorisations requises :

Pour créer une connexion, vous devez être un administrateur de metastore ou un utilisateur disposant du privilège CREATE CONNECTION sur le metastore Unity Catalog attaché à l’espace de travail.
Pour créer un catalogue étranger, vous devez disposer de l’autorisation CREATE CATALOG sur le metastore et être le propriétaire de la connexion ou disposer du privilège CREATE FOREIGN CATALOG sur la connexion.

Des exigences d’autorisation supplémentaires sont spécifiées dans chaque section basée sur les tâches qui suit.

Créer une connexion

Une connexion spécifie un chemin d’accès et des informations d’identification pour accéder à un système de base de données externe. Pour créer une connexion, vous pouvez utiliser l’Explorateur de catalogues ou la commande SQL CREATE CONNECTION dans un notebook Azure Databricks ou l’éditeur de requête SQL Databricks.

Autorisations requises : administrateur de metastore ou utilisateur disposant du privilège CREATE CONNECTION.

Explorateur de catalogues

Dans votre espace de travail Azure Databricks, cliquez sur Catalogue.
En haut du volet Catalogue, cliquez sur l’icône Ajouter, puis sélectionnez Ajouter une connexion dans le menu.

Sinon, dans la page Accès rapide, cliquez sur le bouton Données externes >, accédez à l’onglet Connexions, puis cliquez sur Créer une connexion.
Entrez un nom de connexion convivial.
Sélectionnez le type de connexion MySQL.
Entrez les propriétés de connexion suivantes pour votre instance MySQL.
- Hôte : par exemple, mysql-demo.lb123.us-west-2.rds.amazonaws.com
- Port : par exemple, 3306
- Utilisateur : par exemple, mysql_user
- Mot de passe : par exemple, password123
(Facultatif) Cliquez sur Tester la connexion pour vérifier qu’elle fonctionne.
(Facultatif) Ajoutez un commentaire.
Cliquez sur Créer.

SQL

Exécutez la commande suivante dans un notebook ou dans l’éditeur de requête SQL Databricks.

CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

Nous vous recommandons d’utiliser des secrets Azure Databricks au lieu de chaînes de texte en clair pour les valeurs sensibles telles que les informations d’identification. Par exemple :

CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

Si vous devez utiliser des chaînes de texte en clair dans les commandes SQL du bloc-notes, évitez de tronquer la chaîne en échappant les caractères spéciaux comme $ avec \. Par exemple : \$.

Pour obtenir des informations sur la configuration des secrets, consultez l’article Gestion des secrets.

Créer un catalogue étranger

Un catalogue étranger reflète une base de données dans un système de données externe afin que vous puissiez interroger et gérer l’accès aux données de cette base de données à l’aide d’Azure Databricks et Unity Catalog. Pour créer un catalogue étranger, vous utilisez une connexion à la source de données qui a déjà été définie.

Pour créer un catalogue étranger, vous pouvez utiliser l’Explorateur de catalogues ou la commande SQL CREATE FOREIGN CATALOG dans un notebook Azure Databricks ou l’éditeur de requête SQL Databricks.

Autorisations requises : autorisation CREATE CATALOG sur le metastore, et être propriétaire de la connexion ou disposer du privilège CREATE FOREIGN CATALOG sur la connexion.

Explorateur de catalogues

Dans votre espace de travail Azure Databricks, cliquez sur Catalogue pour ouvrir l’Explorateur de catalogue.
En haut du volet Catalogue, cliquez sur l’icône Ajouter, puis sélectionnez Ajouter un catalogue dans le menu.

Sinon, dans la page Accès rapide, cliquez sur le bouton Catalogues, puis sur le bouton Créer un catalogue.
Suivez les instructions pour créer des catalogues étrangers dans Créer des catalogues.

SQL

Exécutez la commande SQL suivante dans un notebook ou dans l’éditeur Databricks SQL. Les éléments entre crochets sont optionnels. Remplacez les valeurs d’espace réservé :

<catalog-name> : nom du catalogue dans Azure Databricks.
<connection-name> : objet Connection qui spécifie la source de données, le chemin et les informations d’identification d’accès.

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>;

Pushdowns pris en charge

Les pushdowns suivants sont pris en charge sur tous les calculs :

Filtres
Projections
Limite
Fonctions : partielles, uniquement pour les expressions de filtre. (fonctions de chaîne, fonctions mathématiques, fonctions de date, d’heure et d’horodateur, et autres fonctions diverses, comme Alias, Cast, SortOrder)

Les pushdowns suivants sont pris en charge sur Databricks Runtime 13.3 LTS et plus, et sur les entrepôts SQL :

Agrégats
Opérateurs booléens
Les fonctions mathématiques suivantes (non prises en charge si ANSI est désactivée) : +, -, *, %, /
Tri, lorsque l’utilisation est limitée

Les pushdowns suivants ne sont pas pris en charge :

Jointures
Fonctions Windows

Mappages de types de données

Quand vous lisez de MySQL vers Spark, les types de données sont mappés comme suit :

Type MySQL	Type Spark
bigint (si non signé), decimal	DecimalType
tinyint*, int, integer, mediumint, smallint	IntegerType
bigint (si signé)	LongType
float	FloatType
double	DoubleType
char, enum, set	CharType
varchar	VarcharType
json, longtext, mediumtext, text, tinytext	StringType
binary, blob, varbinary, varchar binary	BinaryType
bit, boolean	BooleanType
date, year	DateType
datetime, time, timestamp**	TimestampType/TimestampNTZType

tinyint(1) signed est considéré comme une valeur booléenne et converti en BooleanType. Consultez Connecteur/référence J *. Lorsque vous lisez depuis MySQL, MySQL Timestamp est mappé sur Spark TimestampType si preferTimestampNTZ = false (valeur par défaut). Le type MySQL Timestamp est mappé à TimestampNTZType si preferTimestampNTZ = true.

Partage via

Exécuter des requêtes fédérées sur MySQL

Avant de commencer

Créer une connexion

Explorateur de catalogues

SQL

Créer un catalogue étranger

Explorateur de catalogues

SQL

Pushdowns pris en charge

Mappages de types de données

Commentaires

Ressources supplémentaires