Concepts d’Azure Databricks

Cet article présente l’ensemble des concepts fondamentaux que vous avez besoin de comprendre pour pouvoir utiliser Azure Databricks en toute efficacité.

Comptes et espaces de travail

Dans Azure Databricks, un espace de travail est un déploiement Azure Databricks dans le cloud qui fonctionne comme un environnement permettant à votre équipe d’accéder aux ressources Databricks. Votre organization peut choisir d’avoir plusieurs espaces de travail ou un seul, en fonction de ses besoins.

Un compte Azure Databricks représente une seule entité qui peut inclure plusieurs espaces de travail. Les comptes activés pour Unity Catalog peuvent être utilisés pour gérer les utilisateurs et leur accès aux données de manière centralisée dans tous les espaces de travail du compte.

Facturation : Unités Databricks (DTU)

Azure Databricks facture en fonction des unités Databricks (DBU), des unités de la capacité de traitement par heure en fonction du type d’instance de machine virtuelle.

Consultez la page de tarification d’Azure Databricks.

Authentification et autorisation

Cette section décrit les concepts à connaître quand vous gérez des identités Azure Databricks et leur accès à des ressources Azure Databricks.

Utilisateur

Personne unique qui a accès au système. Les identités d’utilisateur sont représentées par des adresses e-mail. ConsultezGérez les utilisateurs.

Principal du service

Une identité de service à utiliser avec des travaux, des outils automatisés et des systèmes tels que des scripts, des applications et des plateformes CI/CD. Les principaux de service sont représentés par un ID d’application. Si vous souhaitez en savoir plus, veuillez consulter la rubrique Gérer les principaux de service.

Groupe

Collection d’identités. Les groupes simplifient la gestion des identités, facilitant l’octroi d’accès à des espaces de travail, des données et d’autres objets sécurisables. Toutes les identités Databricks peuvent être attribuées en tant que membres de groupes. Consultez Gérer les groupes

Liste de contrôle d’accès (ACL)

Liste d’autorisations attachée à l’espace de travail, au cluster, au travail, à la table ou à l’expérience. Une liste de contrôle d’accès spécifie les utilisateurs ou les processus système autorisés à accéder aux objets, ainsi que les opérations autorisées sur les ressources. Chaque entrée d’une liste de contrôle d’accès standard spécifie un objet et une opération. Consultez Listes de contrôle d’accès.

Jeton d’accès personnel

Une chaîne opaque est utilisée pour l’authentification auprès de l’API REST et par les outils des partenaires technologiques pour la connexion aux entrepôts SQL. Consultez Authentification à l’aide de jetons d’accès personnels Azure Databricks.

Les jetons Microsoft Entra ID (anciennement Azure Active Directory) peuvent également être utilisés pour s’authentifier auprès de l’API REST.

UI

L’interface utilisateur Azure Databricks est une interface graphique permettant d’interagir avec des fonctionnalités, telles que les dossiers d’espace de travail et leurs objets contenus, les objets de données et les ressources de calcul.

Ingénierie et Science des données

Les outils Ingénierie et Science des données facilitent la collaboration entre les scientifiques, les ingénieurs et les analystes de données. Cette section décrit les concepts fondamentaux.

Espace de travail

Un espace de travail est un environnement qui vous permet d’accéder à l’ensemble de vos ressources Azure Databricks. Un espace de travail organise des objets (notebooks, bibliothèques, tableaux de bord et expériences) en dossiers et donne accès à des objets de données et à des ressources de calcul.

Notebook

Interface web permettant de créer des workflows de science des données et de Machine Learning pouvant contenir des commandes, des visualisations et du texte narratif exécutables. Consultez Présentation des notebooks Databricks.

tableau de bord

Interface qui fournit un accès organisé aux visualisations. Voir Tableaux de bord dans les bloc-notes.

Bibliothèque

Package de code disponible pour le notebook ou le travail en cours d’exécution sur votre cluster. Les runtimes Databricks comprennent de nombreuses bibliothèques, dont les vôtres que vous pouvez ajouter.

Dossier Git (anciennement Repos)

Dossier dont le contenu est co-versionné en le synchronisant avec un dépôt Git distant. Les dossiers Databricks Git s’intègrent à Git afin de fournir le contrôle de code source et la gestion de version pour vos projets.

Expérience

Collection d’exécutions MLflow pour entraîner un modèle Machine Learning. ConsultezOrganiser des exécutions de formation avec des expériences MLflow.

Interfaces Azure Databricks

Cette section décrit les interfaces prises en charge par Azure Databricks, en plus de l’interface utilisateur, pour accéder à vos ressources : API et ligne de commande (CLI).

API REST

Databricks fournit la documentation de l’API pour l’espace de travail et le compte.

Interface de ligne de commande

Projet open source hébergé sur GitHub. L’interface CLI s’appuie sur l’API REST Databricks.

Gestion des données

Cette section décrit les objets qui contiennent les données sur lesquelles vous effectuez des analyses et qui alimentent les algorithmes de Machine Learning.

Système de fichiers Databricks (DBFS)

Couche d’abstraction de système de fichiers sur un magasin d’objets blob. Ce système contient des répertoires, qui peuvent contenir des fichiers (fichiers de données, bibliothèques et images) et d’autres répertoires. DBFS est automatiquement renseigné avec des jeux de données que vous pouvez utiliser pour apprendre Azure Databricks. Consultez Qu’est-ce que DBFS (Databricks File System) ?.

Base de données

Collection d’objets de données, tels que des tables ou des vues et des fonctions, qui est organisée de manière à ce qu’elle puisse être facilement accessible, gérée et mise à jour. ConsultezQu’est-ce qu’une base de données ?

Table de charge de travail

Représentation de données structurées. Vous interrogez des tables avec les API Apache Spark SQL et Apache Spark. Consultez Qu’est-ce qu’une table ?

Table delta

Par défaut, toutes les tables créées dans Azure Databricks sont des tables Delta. Les tables Delta sont basées sur le projet Delta Lake open source, une infrastructure pour le stockage de tables ACID hautes performances sur des magasins d’objets cloud. Une table Delta stocke les données sous la forme d’un répertoire de fichiers sur le stockage d’objets cloud et enregistre les métadonnées de table dans le metastore au sein d’un catalogue et d’un schéma.

En savoir plus sur les technologies de type Delta.

Metastore

Composant qui stocke toutes les informations de structure des différentes tables et partitions dans l’entrepôt de données, notamment les informations sur les colonnes et les types de colonne, les sérialiseurs et les désérialiseurs nécessaires pour lire et écrire des données, ainsi que les fichiers correspondants dans lesquels les données sont stockées. ConsultezQu’est-ce qu’un metastore ?

Chaque déploiement Azure Databricks dispose d’un metastore Hive centralisé accessible à tous les clusters dans le but de conserver les métadonnées de table. Vous avez également la possibilité d’utiliser un metastore Hive externe existant.

Visualisation

Présentation graphique du résultat de l’exécution d’une requête. Consultez l’article Visualisations dans les notebooks Databricks.

Gestion des calculs

Cette section décrit les concepts à connaître pour exécuter des calculs dans Azure Databricks.

Cluster

Ensemble de ressources de calcul et de configurations sur lesquelles vous exécutez des notebooks et des travaux. Il existe deux types de clusters : universel et de travail. Voir Calculer.

  • Vous créez un cluster universel en utilisant l’interface utilisateur, l’interface CLI ou l’API REST. Vous pouvez arrêter et redémarrer manuellement un cluster universel. Plusieurs utilisateurs peuvent partager ce type de cluster de façon à effectuer une analyse interactive collaborative.
  • Le planificateur de travaux Azure Databricks crée un cluster de travail quand vous exécutez un travail sur un nouveau cluster de travail et arrête ce dernier une fois le travail terminé. Vous ne pouvez pas redémarrer un cluster de travail.

pool

Ensemble d’instances inactives et prêtes à l’emploi qui réduisent les temps de démarrage et de mise à l’échelle automatique du cluster. Quand un cluster est attaché à un pool, il alloue ses nœuds de pilote et worker à partir du pool. Consultez Informations de référence sur la configuration de pool.

Si le pool ne dispose pas des ressources inactives suffisantes pour répondre à la demande du cluster, il se développe en allouant de nouvelles instances à partir du fournisseur d’instances. Quand un cluster attaché est arrêté, les instances qu’il utilisait sont retournées au pool et peuvent être réutilisées par un autre cluster.

Runtime Databricks

Ensemble de composants de base qui s’exécutent sur les clusters gérés par Azure Databricks. Voir Calcul.* Azure Databricks a les environnements d’exécution suivants :

  • Databricks Runtime comprend Apache Spark mais aussi plusieurs composants et mises à jour qui améliorent considérablement la facilité d’utilisation, les performances et la sécurité de l’analytique Big Data.
  • Databricks Runtime pour le Machine Learning s’appuie sur Databricks Runtime et fournit une infrastructure de Machine Learning prédéfinie qui est intégrée à toutes les fonctionnalités de l’espace de travail Azure Databricks. Il contient plusieurs bibliothèques populaires, notamment TensorFlow, Keras, PyTorch et XGBoost.

Workflows

Infrastructures pour développer et exécuter des pipelines de traitement des données :

  • Travaux : Mécanisme non interactif pour l’exécution d’un notebook ou d’une bibliothèque, soit immédiatement, soit selon une planification.
  • Delta Live Tables : framework permettant de créer des pipelines de traitement de données fiables, gérables et testables.

Voir Introduction aux workflows Azure Databricks.

Charge de travail

Azure Databricks identifie deux types de charges de travail faisant l’objet de différents systèmes de prix : Engineering données (travail) et Analytique données (universel).

  • Engineering données Une charge de travail (automatisée) s’exécute sur un cluster de travail créé par le planificateur de travaux Azure Databricks pour chaque charge de travail.
  • Analytique données Une charge de travail (interactive) s’exécute sur un cluster universel. Les charges de travail interactives exécutent généralement des commandes dans un notebook Azure Databricks. Toutefois, l’exécution d’un travail sur un cluster universel existant est également traitée comme une charge de travail interactive.

Contexte d’exécution

L'état d'un environnement de boucle lecture-évaluation-impression (REPL) pour chaque langage de programmation pris en charge. Les langages pris en charge sont Python, R, Scala et SQL.

Machine Learning

Databricks Machine Learning s’appuie sur Azure Databricks est un environnement de machine learning de bout en bout intégré qui incorpore des services managés pour suivre les expériences, entraîner les modèles, développer et gérer les caractéristiques, ainsi que fournir fonctionnalités et modèles.

Expériences

Unité principale d’organisation pour le suivi du développement des modèles Machine Learning. ConsultezOrganiser des exécutions de formation avec des expériences MLflow. Les expériences permettent d’organiser, d’afficher et de contrôler l’accès aux différentes exécutions journalisées du code d’entraînement des modèles.

Magasin de fonctionnalités

Référentiel centralisé de fonctionnalités. Consultez Qu’est-ce qu’un magasin de caractéristiques ? Le magasin de caractéristiques permet le partage et la découverte de fonctionnalités au sein de votre organisation, et garantit également que le même code de calcul des fonctionnalités est utilisé pour l’apprentissage et l’inférence des modèles.

Modèles et registre de modèle

Modèle Machine Learning ou Deep Learning entraîné qui a été inscrit dans le registre de modèles.

SQL

API REST SQL

Interface qui vous permet d’automatiser des tâches sur des objets SQL. Consultez API SQL.

tableau de bord

Présentation des visualisations de données et des commentaires. Consultez Tableaux de bord. Pour les tableaux de bord hérités, consultez Tableaux de bord hérités.

Requêtes SQL

Cette section décrit les concepts que vous devez connaître pour exécuter des requêtes SQL dans Azure Databricks.

  • Requête : instruction SQL valide.
  • Entrepôt SQL : ressource de calcul sur laquelle vous exécutez des requêtes SQL.
  • Historique des requêtes : liste des requêtes exécutées et leurs caractéristiques de performance.