Composants Azure Databricks

Cet article présente les composants fondamentaux que vous devez comprendre pour utiliser Azure Databricks efficacement.

Comptes et espaces de travail

Dans Azure Databricks, un espace de travail est un déploiement Azure Databricks dans le cloud qui fonctionne comme un environnement permettant à votre équipe d’accéder aux ressources Databricks. Votre organization peut choisir d’avoir plusieurs espaces de travail ou un seul, en fonction de ses besoins.

Un compte Azure Databricks représente une seule entité qui peut inclure plusieurs espaces de travail. Les comptes activés pour Unity Catalog peuvent être utilisés pour gérer les utilisateurs et leur accès aux données de manière centralisée dans tous les espaces de travail du compte.

Facturation : Unités Databricks (DBUs)

Azure Databricks facture en fonction des unités Databricks (DBU), qui sont des unités de capacité de traitement par heure basées sur le type d’instance de machine virtuelle.

Consultez la page de tarification d’Azure Databricks.

Authentification et autorisation

Cette section décrit les concepts à connaître quand vous gérez des identités Azure Databricks et leur accès à des ressources Azure Databricks.

Utilisateur

Personne unique qui a accès au système. Les identités d’utilisateur sont représentées par des adresses e-mail. Consultez Gérer les utilisateurs.

Principal du service

Une identité de service à utiliser avec des travaux, des outils automatisés et des systèmes tels que des scripts, des applications et des plateformes CI/CD. Les principaux de service sont représentés par un ID d’application. Consultez Principaux de service.

Groupe

Collection d’identités. Les groupes simplifient la gestion des identités, facilitant l’octroi d’accès à des espaces de travail, des données et d’autres objets sécurisables. Toutes les identités Databricks peuvent être attribuées en tant que membres de groupes. Voir Groupes.

Liste de contrôle d’accès (ACL)

Liste d’autorisations attachée à l’espace de travail, au cluster, au travail, à la table ou à l’expérience. Une liste de contrôle d’accès spécifie les utilisateurs ou les processus système autorisés à accéder aux objets, ainsi que les opérations autorisées sur les ressources. Chaque entrée d’une liste de contrôle d’accès standard spécifie un objet et une opération. Consultez Listes de contrôle d’accès.

Jeton d’accès personnel (PAT)

Un jeton d’accès personnel est une chaîne utilisée pour authentifier les appels d’API REST, les connexions des partenaires technologiques et d’autres outils. Consultez S'authentifier avec des jetons d’accès personnels Azure Databricks (hérités).

Les jetons Microsoft Entra ID peuvent également être utilisés pour s’authentifier auprès de l’API REST.

Interfaces Azure Databricks

Cette section décrit les interfaces permettant d’accéder à vos ressources dans Azure Databricks.

IU

L’interface utilisateur Azure Databricks est une interface graphique permettant d’interagir avec des fonctionnalités, telles que les dossiers d’espace de travail et leurs objets contenus, les objets de données et les ressources de calcul.

API REST

L’API REST Databricks fournit des points de terminaison pour modifier ou demander des informations sur les objets de compte et d’espace de travail Azure Databricks. Consultez les références de comptes et les références d’espaces de travail.

API REST SQL

L’API REST SQL vous permet d’automatiser des tâches sur des objets SQL. Consultez API SQL.

Interface de ligne de commande

L’interface CLI Databricks est hébergée sur GitHub. L’interface CLI s’appuie sur l’API REST Databricks.

Gestion des données

Cette section décrit les outils et les objets logiques utilisés pour organiser et régir les données sur Azure Databricks. Consultez les objets Database dans Azure Databricks.

Unity Catalog

Unity Catalog est une solution de gouvernance unifiée pour les données et les ressources d’IA sur Azure Databricks qui fournit des fonctionnalités centralisées de contrôle d’accès, d’audit, de traçabilité des données et de découverte des données dans les espaces de travail Databricks. Consultez Qu’est-ce que Unity Catalog ?.

Catalogue

Les catalogues sont le conteneur de niveau le plus élevé pour organiser et isoler les données sur Azure Databricks. Vous pouvez partager des catalogues entre des espaces de travail au sein de la même région et du même compte. Consultez Qu’est-ce que les catalogues dans Azure Databricks ?.

Schéma

Les schémas, également appelés bases de données, sont contenus dans des catalogues et fournissent un niveau d’organisation plus précis. Ils contiennent des objets de base de données et des ressources IA, tels que des volumes, des tables, des fonctions et des modèles. Consultez Qu’est-ce que les schémas dans Azure Databricks ?.

Table de charge de travail

Les tables organisent et régissent l’accès aux données structurées. Vous interrogez des tables avec les API Apache Spark SQL et Apache Spark. Consultez les tables Azure Databricks.

Affichage

Une vue est un objet en lecture seule dérivé d’une ou plusieurs tables et vues. Les vues enregistrent les requêtes définies pour les tables. Qu’est-ce qu’une vue ?

Volume

Les volumes représentent un volume logique de stockage dans un emplacement de stockage d’objets cloud et organisent et régissent l’accès aux données non tabulaires. Databricks recommande d’utiliser des volumes pour gérer tous les accès aux données non tabulaires sur le stockage d’objets cloud. Consultez Qu’est-ce que les volumes de catalogue Unity ?.

Tables Delta

Par défaut, toutes les tables créées dans Azure Databricks sont des tables Delta. Les tables Delta sont basées sur le projet Delta Lake open source, une infrastructure pour le stockage de tables ACID hautes performances sur des magasins d’objets cloud. Une table Delta stocke les données sous la forme d’un répertoire de fichiers sur le stockage d’objets cloud et enregistre les métadonnées de table dans le metastore au sein d’un catalogue et d’un schéma.

Metastore

Unity Catalog fournit un metastore au niveau du compte qui inscrit des métadonnées sur les données, l’IA et les autorisations sur les catalogues, les schémas et les tables. Voir Metastore.

Azure Databricks fournit un metastore Hive hérité pour les clients qui n’ont pas adopté le catalogue Unity. Consultez Contrôle d’accès aux tables du metastore Hive (hérité).

Explorateur de catalogues

Catalog Explorer vous permet d’explorer et de gérer les ressources de données et d’IA, notamment les schémas (bases de données), les tables, les modèles, les volumes (données non tabulaires), les fonctions et les modèles ML inscrits. Vous pouvez l’utiliser pour rechercher des objets de données et des propriétaires, comprendre les relations de données entre les tables, et gérer les autorisations et le partage. Consultez Qu’est-ce que l’Explorateur de catalogues ?.

Racine DBFS

Importante

Le stockage et l’accès aux données à l’aide de la racine DBFS ou des montages DBFS est un modèle déconseillé et non recommandé par Databricks. Au lieu de cela, Databricks recommande d’utiliser Unity Catalog pour gérer l’accès à toutes les données. Consultez Qu’est-ce que Unity Catalog ?.

La racine DBFS est un emplacement de stockage disponible par défaut pour tous les utilisateurs. Consultez Qu’est-ce que DBFS ?.

Gestion des calculs

Cette section décrit les concepts à connaître pour exécuter des calculs dans Azure Databricks.

Groupe

Ensemble de ressources de calcul et de configurations sur lequel vous exécutez des notebooks et des tâches. Il existe deux types de clusters : universel et de travail. Voir Calculer.

Vous créez un cluster universel en utilisant l’interface utilisateur, l’interface CLI ou l’API REST. Vous pouvez arrêter et redémarrer manuellement un cluster polyvalent. Plusieurs utilisateurs peuvent partager ce type de cluster de façon à effectuer une analyse interactive collaborative.
Le planificateur de projet Azure Databricks crée un groupement de projets lorsque vous exécutez un projet sur un nouveau groupement de projets et arrête le groupement une fois le projet terminé. Vous ne pouvez pas redémarrer un cluster de travail.

piscine

Ensemble d’instances inactives et prêtes à l’emploi qui réduisent les temps de démarrage et de mise à l’échelle automatique du cluster. Quand un cluster est attaché à un pool, il alloue ses nœuds de pilote et worker à partir du pool. Consultez Informations de référence sur la configuration de pool.

Si le pool n’a pas suffisamment de ressources inactives pour prendre en charge la demande du cluster, le pool s’étend en allouant de nouvelles instances du fournisseur d’instances. Quand un cluster attaché est arrêté, les instances qu’il utilisait sont retournées au pool et peuvent être réutilisées par un autre cluster.

Runtime Databricks

Ensemble de composants de base qui s’exécutent sur les clusters gérés par Azure Databricks. Voir Calculer. Azure Databricks contient les runtimes suivants :

Databricks Runtime comprend Apache Spark mais aussi plusieurs composants et mises à jour qui améliorent considérablement la facilité d’utilisation, les performances et la sécurité de l’analytique Big Data.
Databricks Runtime pour le Machine Learning s’appuie sur Databricks Runtime et fournit une infrastructure de Machine Learning prédéfinie qui est intégrée à toutes les fonctionnalités de l’espace de travail Azure Databricks. Il contient plusieurs bibliothèques populaires, notamment TensorFlow, Keras, PyTorch et XGBoost.

Interface utilisateur Travaux et Pipelines

L’interface utilisateur de l’espace de travail Travaux & Pipelines fournit une entrée aux interfaces utilisateur Jobs, Lakeflow Spark Declarative Pipelines et Lakeflow Connect, qui sont des outils qui vous permettent d’orchestrer et de planifier des flux de travail.

Tâches

Mécanisme non interactif permettant d’orchestrer et de planifier des notebooks, des bibliothèques et d’autres tâches. Voir Tâches Lakeflow

Canalisations

Les pipelines déclaratifs Spark Lakeflow fournissent une infrastructure déclarative permettant de créer des pipelines de traitement de données fiables, gérables et testables. Consultez pipelines déclaratifs Lakeflow Spark.

Charge de travail

La charge de travail est la quantité de capacité de traitement nécessaire pour effectuer une tâche ou un groupe de tâches. Azure Databricks identifie deux types de charges de travail : ingénierie de données (tâche) et analyse de données (polyvalent).

Ingénierie des données Une charge de travail (automatisée) s’exécute sur un cluster de tâches que le planificateur de tâches Azure Databricks crée pour chacune d'elles.
Analytique données Une charge de travail (interactive) s’exécute sur un cluster universel. Les charges de travail interactives exécutent généralement des commandes dans un notebook Azure Databricks. Toutefois, l’exécution d’un travail sur un cluster universel existant est également traitée comme une charge de travail interactive.

Contexte d’exécution

L'état d'un environnement de boucle lecture-évaluation-impression (REPL) pour chaque langage de programmation pris en charge. Les langages pris en charge sont Python, R, Scala et SQL.

Ingénierie des données

Les outils d'ingénierie des données facilitent la collaboration entre les scientifiques des données, les ingénieurs des données, les analystes de données et les ingénieurs en apprentissage automatique.

Espace de travail

Un espace de travail est un environnement qui vous permet d’accéder à l’ensemble de vos ressources Azure Databricks. Un espace de travail organise des objets (notebooks, bibliothèques, tableaux de bord et expériences) en dossiers et donne accès à des objets de données et à des ressources de calcul.

Carnet de notes

Interface web permettant de créer des workflows de science des données et de Machine Learning pouvant contenir des commandes, des visualisations et du texte narratif exécutables. Consultez Notebooks Databricks.

Bibliothèque

Package de code disponible pour le notebook ou le travail en cours d’exécution sur votre cluster. Les runtimes Databricks comprennent de nombreuses bibliothèques, et vous pouvez également charger vos propres bibliothèques. Consultez Installer des bibliothèques.

Dossier Git (anciennement Repos)

Dossier dont le contenu est co-versionné en le synchronisant avec un dépôt Git distant. Les dossiers Databricks Git s’intègrent à Git afin de fournir le contrôle de code source et la gestion de version pour vos projets.

IA et Machine Learning

Databricks fournit un environnement de bout en bout intégré avec des services managés pour le développement et le déploiement d’applications IA et Machine Learning.

Mosaic AI

Nom officiel des produits et services de Databricks Mosaic AI Research, une équipe de chercheurs et d’ingénieurs responsable des plus grandes percées de Databricks dans le domaine de l’IA générative. Les produits Mosaic AI incluent les fonctionnalités ML et IA dans Databricks. Voir Recherche Mosaic.

Environnement d'exécution d'apprentissage automatique

Pour vous aider à développer des modèles ML et IA, Databricks fournit « Databricks Runtime for Machine Learning », qui automatise la création de ressources informatiques avec une infrastructure de Machine Learning et de Deep Learning prédéfinie, comprenant les bibliothèques ML et DL les plus courantes. Il offre également une prise en charge intégrée des GPU préconfigurés, notamment des pilotes et des bibliothèques de prise en charge. Accédez aux informations sur les dernières versions du runtime dans Notes de publication de Databricks Runtime – Versions et compatibilité.

Expérience

Collection d’exécutions MLflow pour entraîner un modèle Machine Learning. Consultez Organiser des exécutions de formation avec des expériences MLflow.

Fonctionnalités

Les caractéristiques sont un composant important des modèles ML. Un magasin de caractéristiques permet le partage et la découverte de caractéristiques au sein de votre organisation, et garantit également que le même code de calcul des caractéristiques est utilisé pour l’entraînement des modèles et l’inférence. Consultez databricks Feature Store.

Modèles IA génératifs

Databricks prend en charge l’exploration, le développement et le déploiement de modèles d’IA générative, notamment :

Terrain de jeu d’IA, un environnement de type conversationnel dans l’espace de travail où vous pouvez tester, inviter et comparer des LLM. Découvrez Converser avec des LLM et des prototypes d’applications d'IA générative avec AI Playground.
Ensemble intégré de modèles de fondation préconfigurés que vous pouvez interroger :
- Consultez API Foundation Model avec paiement par jeton.
- Consultez la section [Recommandé] Déployer des modèles de fondation à partir d’Unity Catalog pour les modèles de fondation que vous pouvez fournir en un seul clic.
Modèles LLM hébergés par des tiers, appelés modèles externes. Ces modèles sont destinés à être utilisés tels quels.
Possibilités de personnaliser un modèle de fondation afin d’optimiser ses performances pour votre application spécifique (souvent appelé fine-tuning). Consultez Ajustement du modèle de fondation.

Registre de modèles

Databricks fournit une version hébergée du registre de modèles MLflow dans Unity Catalog. Les modèles inscrits dans Unity Catalog héritent du contrôle d’accès centralisé, de la traçabilité, et de la découverte et de l’accès entre espaces de travail. Consultez Gérer le cycle de vie des modèles dans Unity Catalog.

Mise en service

Le Service de modèles Mosaic AI permet de déployer, de gérer et d’interroger des modèles d’IA à partir d’une interface unifiée. Chaque modèle servi est disponible en tant qu’API REST que vous pouvez intégrer à votre application web ou cliente. Avec le Service de modèles Mosaic AI, vous pouvez déployer vos propres modèles, des modèles de base, ou des modèles tiers hébergés en dehors de Databricks. Voir Déployer des modèles en utilisant le service de modèles de Mosaïque AI.

Entrepôt de données

L’entrepôt de données fait référence à la collecte et au stockage de données à partir de plusieurs sources afin qu’elles soient rapidement accessibles pour la création de rapports et des insights métier. Databricks SQL est une collection de services qui apporte des capacités d’entrepôt de données et des performances dans vos lacs de données. Consultez l’architecture d’entreposage de données.

Requête

Une requête est une instruction SQL valide qui vous permet d’interagir avec vos données. Vous pouvez créer des requêtes à l’aide de l’éditeur SQL intégré à la plateforme ou vous connecter à l’aide d’un connecteur SQL, d’un pilote ou d’une API. Consultez Accéder à des requêtes enregistrées et les gérer pour en savoir plus sur l’utilisation des requêtes.

Entrepôt SQL

Ressource de calcul sur laquelle vous exécutez des requêtes SQL. Il existe trois types d’entrepôts SQL : Classic, Pro et Serverless. Azure Databricks recommande d’utiliser des entrepôts serverless là où ils sont disponibles. Consultez Types d’entrepôts SQL afin de comparer les fonctionnalités disponibles pour chaque type d’entrepôt.

Historique des requêtes

Liste de requêtes exécutées et de leurs caractéristiques de performance. L’historique des requêtes vous permet de surveiller les performances des requêtes, ce qui vous aide à identifier les goulots d’étranglement et à optimiser les runtimes de requête. Consulter l'Historique des requêtes.

Visualisation

Présentation graphique du résultat de l’exécution d’une requête. Consultez Visualisations dans les notebooks Databricks et l’éditeur SQL.

Tableau de bord

Présentation des visualisations de données et des commentaires. Vous pouvez utiliser des tableaux de bord pour envoyer automatiquement des rapports à n’importe qui dans votre compte Azure Databricks. Utilisez le Genie Code pour vous aider à créer des visualisations basées sur des requêtes en langage naturel. Consultez Tableaux de bord. Vous pouvez également créer un tableau de bord à partir d’un notebook. Voir Tableaux de bord dans les bloc-notes.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-15

Partager via

Composants Azure Databricks

Comptes et espaces de travail

Facturation : Unités Databricks (DBUs)

Authentification et autorisation

Utilisateur

Principal du service

Groupe

Liste de contrôle d’accès (ACL)

Jeton d’accès personnel (PAT)

Interfaces Azure Databricks

IU

API REST

API REST SQL

Interface de ligne de commande

Gestion des données

Unity Catalog

Catalogue

Schéma

Table de charge de travail

Affichage

Volume

Tables Delta

Metastore

Explorateur de catalogues

Racine DBFS

Gestion des calculs

Groupe

piscine

Runtime Databricks

Interface utilisateur Travaux et Pipelines

Tâches

Canalisations

Charge de travail

Contexte d’exécution

Ingénierie des données

Espace de travail

Carnet de notes

Bibliothèque

Dossier Git (anciennement Repos)

IA et Machine Learning

Mosaic AI

Environnement d'exécution d'apprentissage automatique

Expérience

Fonctionnalités

Modèles IA génératifs

Registre de modèles

Mise en service

Entrepôt de données

Requête

Entrepôt SQL

Historique des requêtes

Visualisation

Tableau de bord

Commentaires

Ressources supplémentaires