Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La plateforme Databricks Data Intelligence permet aux professionnels des données au sein de votre organisation de collaborer et de produire des solutions de données à l’aide de ressources et d’outils de données partagés et régis en toute sécurité.
Cet article vise à vous aider à identifier le bon point de départ pour votre cas d’usage.
De nombreuses tâches sur Azure Databricks nécessitent des autorisations élevées. De nombreuses organisations limitent ces autorisations élevées à un petit nombre d’utilisateurs ou d’équipes. Cet article désambigue les actions qui peuvent être effectuées par la plupart des utilisateurs de l’espace de travail à partir d’actions qui sont limitées aux utilisateurs privilégiés.
Les administrateurs d’espace de travail peuvent vous aider à déterminer si vous devez demander l’accès aux ressources ou demander des autorisations élevées.
Rechercher et accéder aux données
Cette section fournit une brève vue d’ensemble des tâches pour vous aider à découvrir les ressources de données disponibles. La plupart de ces tâches supposent qu’un administrateur dispose d’autorisations configurées sur les ressources de données. Consultez Configurer l’accès aux données.
| Zone des fonctionnalités | Resources |
|---|---|
| Découverte de données | Pour obtenir une vue d’ensemble plus détaillée des tâches de découverte de données, consultez Découvrir des données. |
| Catalogs | Les catalogues sont l’objet de niveau supérieur dans le modèle de gouvernance des données du catalogue Unity. Utilisez l’explorateur de catalogues pour rechercher des tables, des vues et d’autres ressources de données. Consultez Exploration des objets de base de données.
|
| Stockage connecté | Si vous avez accès aux ressources de calcul, vous pouvez utiliser des commandes intégrées pour explorer les fichiers dans le stockage connecté. Consultez Explorer le stockage et rechercher des fichiers de données. |
| Charger des fichiers locaux | Par défaut, les utilisateurs disposent des autorisations nécessaires pour charger de petits fichiers de données à partir de votre ordinateur local, tels que les CSV. Consultez Créer ou modifier une table à l’aide du chargement de fichiers. |
Utiliser les données
Cette section fournit une vue d’ensemble des tâches de données courantes et des outils utilisés pour effectuer ces tâches.
Pour toutes les tâches décrites, les utilisateurs doivent disposer des autorisations appropriées pour les outils, les ressources de calcul, les données et d’autres artefacts d’espace de travail. Consultez Configuration de l’accès aux données et Configuration des espaces de travail et des infrastructures.
| Zone des fonctionnalités | Resources |
|---|---|
| Objets de base de données | En plus des tables et des vues, Azure Databricks utilise d’autres objets de base de données sécurisables tels que des volumes pour régir en toute sécurité les données. Consultez les objets Database dans Azure Databricks. |
| Autorisations de données | Unity Catalog régit toutes les opérations de lecture et d’écriture dans les espaces de travail activés. Vous devez disposer des autorisations adéquates pour effectuer ces opérations. Consultez Objets sécurisables dans Unity Catalog. |
| ETL | Les charges de travail d’extraction, de transformation et de chargement (ETL) sont parmi les utilisations les plus courantes pour Apache Spark et Azure Databricks, et la plupart de la plateforme a des fonctionnalités générées et optimisées pour ETL. Consultez le tutoriel : Créer un pipeline ETL avec des pipelines déclaratifs Spark Lakeflow. |
| Queries |
|
| Tableaux de bord et insights |
|
| Ingest |
|
| Transformations | Azure Databricks utilise une syntaxe et des outils courants pour les transformations qui vont de la complexité des instructions SQL CTAS aux applications de diffusion en continu en quasi temps réel.
|
| IA et Machine Learning | Databricks Data Intelligence Platform fournit une suite d’outils pour la science des données, le Machine Learning et les applications IA. Consultez IA et machine learning sur Databricks. |
Configurer l’accès aux données
La plupart des espaces de travail Azure Databricks s’appuient sur un administrateur d’espace de travail ou d’autres utilisateurs power pour configurer des connexions à des sources de données externes et appliquer des privilèges aux ressources de données en fonction de l’appartenance à l’équipe, de la région ou des rôles. Cette section fournit une vue d’ensemble des tâches courantes pour la configuration et le contrôle des aces de données qui nécessitent des autorisations élevées.
Note
Avant de demander des autorisations élevées pour configurer une nouvelle connexion à une source de données, vérifiez si vous manquez simplement des privilèges sur une connexion, un catalogue ou une table existante. Si une source de données n’est pas disponible, consultez votre organisation pour connaître la stratégie d’ajout de nouvelles données à votre espace de travail.
| Zone des fonctionnalités | Resources |
|---|---|
| Unity Catalog |
|
| Connexions et accès |
|
| Sharing |
|
configurer des espaces de travail et une infrastructure
Cette section fournit une vue d’ensemble des tâches courantes associées aux ressources et à l’infrastructure de l’espace de travail d’administrateur. Les ressources d’espace de travail largement définies sont les suivantes :
Ressources de calcul: les ressources de calcul incluent des clusters interactifs à usage unique, des entrepôts SQL, des clusters de travaux et un calcul de pipeline. Un utilisateur ou une charge de travail doit disposer des autorisations nécessaires pour se connecter à l’exécution de ressources de calcul afin de traiter la logique spécifiée.
Note
Les utilisateurs qui n’ont pas accès à se connecter à des ressources de calcul ont des fonctionnalités très limitées sur Azure Databricks.
Outils de plateforme : la plateforme Databricks Data Intelligence fournit une suite d’outils adaptés à différents cas d’utilisation et profils, tels que des notebooks, Databricks SQL et Mosaic AI. Les administrateurs peuvent personnaliser les paramètres qui incluent les comportements par défaut, les fonctionnalités facultatives et l’accès utilisateur pour la plupart de ces outils.
Artefacts : les artefacts incluent des notebooks, des requêtes, des tableaux de bord, des fichiers, des bibliothèques, des pipelines et des travaux. Les artefacts contiennent du code et des configurations que les utilisateurs créent pour effectuer des actions souhaitées sur leurs données.
Important
L’utilisateur qui crée une ressource d’espace de travail reçoit le rôle propriétaire par défaut. Pour la plupart des ressources, les propriétaires peuvent accorder des autorisations à tout autre utilisateur ou groupe dans l’espace de travail.
Pour garantir la sécurité des données et du code, Databricks recommande de configurer le rôle de propriétaire pour tous les artefacts et ressources de calcul déployées sur un espace de travail de production.
| Zone des fonctionnalités | Resources |
|---|---|
| Droits de l’espace de travail | Les droits d’espace de travail incluent l’accès à l’espace de travail de base, l’accès à Databricks SQL et la création illimitée du cluster. Consultez Gérer les droits d’utilisation. |
| Stratégies d’accès aux ressources de calcul & |
|
| Outils de plateforme | Utilisez la console d’administration pour configurer des comportements allant de la personnalisation de l’apparence de l’espace de travail à l’activation ou à la désactivation des produits et fonctionnalités. Consultez pour gérer votre espace de travail. |
| Listes de contrôle d’accès de l’espace de travail | Les listes de contrôle d’accès de l’espace de travail régissent la façon dont les utilisateurs et les groupes peuvent interagir avec les ressources de l’espace de travail, notamment les ressources de calcul, les artefacts de code et les travaux. Consultez Listes de contrôle d’accès. |
Production des charges de travail
Tous les produits Azure Databricks sont conçus pour accélérer le chemin du développement à la production, et pour la mise à l’échelle et la stabilité. Cette section présente brièvement la suite d’outils recommandés pour la mise en production des charges de travail.
| Zone des fonctionnalités | Resources |
|---|---|
| Pipelines ETL | Lakeflow Spark Declarative Pipelines fournit une syntaxe déclarative pour la création et la production de pipelines ETL. Consultez pipelines déclaratifs Lakeflow Spark. |
| Orchestration | Les tâches vous permettent de définir des flux de travail complexes avec des dépendances, des déclencheurs et des horaires. Consultez les offres d'emploi Lakeflow. |
| CI/CD | Les bundles de ressources Databricks facilitent la gestion et le déploiement de données, de ressources et d’artefacts entre les espaces de travail. Consultez Que sont les packs de ressources Databricks ?. |