Réception de données dans un lac de données Databricks

Article
03/01/2024

Azure Databricks propose différents moyens de vous aider à ingérer des données dans un lakehouse soutenu par Delta Lake. Databricks recommande d’utiliser Auto Loader pour l’ingestion des données de manière incrémentielle à partir du stockage d’objets cloud. L’IU d’ajout de données fournit un certain nombre d’options permettant de charger rapidement des fichiers locaux, ou de se connecter à des sources de données externes.

Exécuter votre première charge de travail ETL

Si vous n’avez pas déjà utilisé Auto Loader sur Azure Databricks, commencez par un tutoriel. Consultez Exécuter votre première charge de travail ETL sur Azure Databricks.

Chargeur automatique

Auto Loader traite de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud, sans configuration supplémentaire. Auto Loader fournit une source de flux structuré appelée cloudFiles. À partir du chemin d’accès du répertoire d’entrée sur le stockage de fichiers dans le cloud, la source cloudFiles traite automatiquement les nouveaux fichiers à mesure qu’ils arrivent, avec la possibilité de traiter également les fichiers existants dans ce répertoire.

Automatiser les opérations ETL avec Delta Live Tables et Auto Loader

Vous pouvez simplifier le déploiement d’une infrastructure d’ingestion incrémentielle et scalable avec Auto Loader et Delta Live Tables. Notez que Delta Live Tables n’utilise pas l’exécution interactive standard présente dans les notebooks, mais met l’accent sur le déploiement d’une infrastructure prête pour la production.

Charger des fichiers de données locaux ou connecter des sources de données externes

Vous pouvez charger de manière sécurisée des fichiers de données locaux ou ingérer des données provenant de sources externes pour créer des tables. Consultez Charger des données à l’aide de l’IU d’ajout de données.

Réception de données dans Azure Databricks à l’aide d’outils tiers

Azure Databricks valide les intégrations de partenaires technologiques qui vous permettent d’ingérer des données dans Azure Databricks. Ces intégrations permettent une ingestion des données évolutive et nécessitant peu de code à partir d’une variété de sources dans Azure Databricks. Consultez Partenaires technologiques. Certains partenaires technologiques sont présentés dans Databricks Partner Connect, qui fournit une interface utilisateur qui simplifie la connexion d’outils tiers à vos données lakehouse.

COPY INTO

COPY INTO permet aux utilisateurs SQL d’ingérer des données, de manière incrémentielle et idempotente, à partir d’un stockage d’objets cloud dans des tables Delta. Il peut être utilisé dans Databricks SQL, des notebooks et des travaux Databricks.

Quand utiliser COPY INTO et quand utiliser Auto Loader ?

Voici quelques éléments à prendre en compte lors du choix entre Auto Loader et COPY INTO :

Si vous comptez ingérer plusieurs milliers de fichiers, vous pouvez utiliser COPY INTO. Si vous attendez des millions de fichiers ou plus au fil du temps, utilisez Auto Loader. Auto Loader nécessite un nombre total d’opérations moindre pour découvrir des fichiers par rapport à COPY INTO, et peut fractionner le traitement en plusieurs lots. En d’autres termes, Auto Loader est moins coûteux et plus efficace à grande échelle.
Si le schéma de vos données est appelé à évoluer fréquemment, Auto Loader fournit de meilleures primitives pour l’inférence et l’évolution de schéma. Pour plus d’informations, consultez Configurer l’inférence et l’évolution de schéma dans Auto Loader.
Le chargement d’un sous-ensemble de fichiers rechargés peut être un peu plus facile à gérer avec COPY INTO. Avec Auto Loader, il est plus difficile de retraiter un sous-ensemble donné de fichiers. Toutefois, vous pouvez utiliser COPY INTO pour recharger le sous-ensemble de fichiers alors qu’un flux Auto Loader est exécuté simultanément.
Pour une expérience d’ingestion de fichiers encore plus évolutive et robuste, Auto Loader permet aux utilisateurs SQL de tirer parti des tables de streaming. Consultez Charger des données à l’aide de tables de streaming dans Databricks SQL.

Pour obtenir une brève présentation et une démonstration d’Auto Loader, ainsi que de COPY INTO, regardez la vidéo YouTube suivante (2 minutes).

Examiner les métadonnées de fichier capturées pendant l’ingestion des données

Apache Spark capture automatiquement les données relatives aux fichiers sources lors du chargement des données. Azure Databricks vous permet d’accéder à ces données avec la colonne Métadonnées de fichier.

Charger des exportations de feuilles de calcul vers Azure Databricks

Utilisez la page Créer ou modifier une table à partir du chargement de fichiers pour charger des fichiers CSV, TSV ou JSON. Consultez Créer ou modifier une table à l’aide du chargement de fichiers.

Migrer des applications de données vers Azure Databricks

Migrez des applications de données existantes vers Azure Databricks afin de pouvoir utiliser des données provenant de nombreux systèmes sources sur une même plateforme. Consultez Migrer des applications de données vers Azure Databricks.