Charger des données à l’aide d’un emplacement externe Unity Catalog

Article
11/07/2024

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article explique comment utiliser l’IU d’ajout de données pour créer une table managée à partir de données dans Azure Data Lake Storage Gen2 à l’aide d’un emplacement externe Unity Catalog. Un emplacement externe est un objet qui combine un chemin de stockage avec des informations d'identification de stockage qui autorise l'accès à ce chemin.

Avant de commencer

Avant de commencer la lecture cet article, vous devez disposer des éléments suivants :

Un espace de travail avec Unity Catalog activé. Pour plus d’informations, consultez Configurer et gérer Unity Catalog.
Le privilège READ FILES sur l’emplacement externe. Pour plus d’informations, consultez Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks.
Le privilège CREATE TABLE sur le schéma dans lequel vous souhaitez créer la table managée, le privilège USE SCHEMA sur le schéma ainsi que le privilège USE CATALOG sur le catalogue parent. Pour obtenir l’accès, consultez Privilèges Unity Catalog et objets sécurisables.

Types de fichier

Les types de fichiers suivants sont pris en charge :

CSV
TSV
JSON
XML
AVRO
Parquet

Étape 1 : Confirmer l’accès à l’emplacement externe

Pour confirmer l’accès à l’emplacement externe, effectuez ce qui suit :

Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Catalogues.
Dans l'Explorateur de catalogue, cliquez sur Emplacements externes>des données externes.

Étape 2 : Créer la table managée

Pour créer la table managée, effectuez ce qui suit :

Dans la barre latérale de votre espace de travail, cliquez sur + Nouveau>Ajouter des données.
Dans l’IU d’ajout de données, cliquez sur Azure Data Lake Storage.
Sélectionnez un emplacement externe dans la liste déroulante.
Sélectionnez les dossiers et les fichiers à charger dans Azure Databricks, puis cliquez sur Aperçu de la table.
Sélectionnez un catalogue et un schéma dans les listes déroulantes.
(Facultatif)Modifiez le nom du tableau.
(Facultatif) Pour définir les options de format avancées par type de fichier, cliquez sur Attributs avancés, désactivez Détecter automatiquement le type de fichier, puis sélectionnez un type de fichier.

Pour obtenir la liste des options de format, consultez la section suivante.
(Facultatif) Pour modifier le nom de la colonne, cliquez sur la zone d’entrée en haut de la colonne.

Les noms de colonnes ne prennent pas en charge les virgules, les barres obliques inverses ou les caractères Unicode (par exemple les emojis).
(Facultatif) Pour modifier les types de colonnes, cliquez sur l’icône correspondant au type.
Cliquez sur Créer une table.

Options de format selon le type de fichier

Les options de format suivantes sont disponibles en fonction du type de fichier :

Option de format	Description	Types de fichiers pris en charge
`Column delimiter`	Caractère de séparation entre les colonnes. Un seul caractère est autorisé et la barre oblique inverse n’est pas prise en charge. La valeur par défaut est une virgule.	CSV
`Escape character`	Caractère d’échappement à utiliser lors de l’analyse des données. La valeur par défaut est un guillemet.	CSV
`First row contains the header`	Cette option spécifie si le fichier contient un en-tête. Activée par défaut.	CSV
`Automatically detect file type`	Détectez automatiquement le type de fichier. La valeur par défaut est `true`.	XML
`Automatically detect column types`	Permet de détecter automatiquement les types de colonnes à partir du contenu du fichier. Vous pouvez modifier les types dans l’aperçu de la table. Si ce paramètre est défini sur false (faux), tous les types de colonnes sont considérés comme étant STRING. Activée par défaut.	- CSV - JSON - XML
`Rows span multiple lines`	Indique si la valeur d’une colonne peut s’étendre sur plusieurs lignes dans le fichier. Désactivé par défaut.	- CSV - JSON
`Merge the schema across multiple files`	Indique s’il faut déduire le schéma entre plusieurs fichiers et fusionner le schéma de chaque fichier. Activée par défaut.	CSV
`Allow comments`	Indique si les commentaires sont autorisés dans le fichier. Activée par défaut.	JSON
`Allow single quotes`	Indique si les guillemets simples sont autorisés dans le fichier. Activée par défaut.	JSON
`Infer timestamp`	Indique s’il est nécessaire d’essayer de déduire les chaînes d’horodatage en tant que `TimestampType`. Activée par défaut.	JSON
`Rescued data column`	Indique s’il est nécessaire d’enregistrer les colonnes qui ne correspondent pas au schéma. Pour plus d’informations, consultez Qu’est-ce que la colonne de données récupérées ?. Activée par défaut.	- CSV - JSON - Avro - Parquet
`Exclude attribute`	Indique s’il faut exclure des attributs dans les éléments. La valeur par défaut est `false`.	XML
`Attribute prefix`	Le préfixe des attributs pour différencier les attributs des éléments. La valeur par défaut est `_`.	XML

Types de données de colonne

Les types de données de colonne suivants sont pris en charge. Pour plus d’informations sur les types de données individuels, consultez Types de données de SQL.

Type de données	Description
`BIGINT`	Nombres entiers signés de 8 octets.
`BOOLEAN`	Valeurs booléennes (`true`, `false`)
`DATE`	et jour, sans fuseau horaire.
`DECIMAL (P,S)`	Nombres avec une précision maximale `P` et une échelle fixe `S`.
`DOUBLE`	Nombres à virgule flottante double précision de 8 octets.
`STRING`	Valeurs de chaîne de caractères.
`TIMESTAMP`	Valeurs comprenant des valeurs de champs Année, Mois, Jour, Heure, Minute et Seconde, avec le fuseau horaire local de la session.

Problèmes connus

Vous pouvez rencontrer des problèmes avec les caractères spéciaux dans les types de données complexes, par exemple un objet JSON dont la clé contient un accent grave ou le signe deux-points.
Certains fichiers JSON peuvent vous obliger à sélectionner manuellement JSON en tant que type de fichier. Pour sélectionner manuellement un type de fichier après avoir sélectionné des fichiers, cliquez sur Attributs avancés, désactivez Détecter automatiquement le type de fichier, puis sélectionnez JSON.
Les horodatages et les nombres décimaux imbriqués dans des types complexes peuvent poser des problèmes.

Partage via