Partager via


Guides de données

La plateforme Databricks Data Intelligence permet aux professionnels des données au sein de votre organisation de collaborer et de produire des solutions de données à l’aide de ressources et d’outils de données partagés et régis en toute sécurité.

Cet article vise à vous aider à identifier le bon point de départ pour votre cas d’usage.

De nombreuses tâches sur Azure Databricks nécessitent des autorisations élevées. De nombreuses organisations limitent ces autorisations élevées à un petit nombre d’utilisateurs ou d’équipes. Cet article désambigue les actions qui peuvent être effectuées par la plupart des utilisateurs de l’espace de travail à partir d’actions qui sont limitées aux utilisateurs privilégiés.

Les administrateurs d’espace de travail peuvent vous aider à déterminer si vous devez demander l’accès aux ressources ou demander des autorisations élevées.

Rechercher et accéder aux données

Cette section fournit une brève vue d’ensemble des tâches pour vous aider à découvrir les ressources de données disponibles. La plupart de ces tâches supposent qu’un administrateur dispose d’autorisations configurées sur les ressources de données. Consultez Configurer l’accès aux données.

Zone des fonctionnalités Resources
Découverte de données Pour obtenir une vue d’ensemble plus détaillée des tâches de découverte de données, consultez Découvrir des données.
Catalogs Les catalogues sont l’objet de niveau supérieur dans le modèle de gouvernance des données du catalogue Unity. Utilisez l’explorateur de catalogues pour rechercher des tables, des vues et d’autres ressources de données. Consultez Exploration des objets de base de données.
Stockage connecté Si vous avez accès aux ressources de calcul, vous pouvez utiliser des commandes intégrées pour explorer les fichiers dans le stockage connecté. Consultez Explorer le stockage et rechercher des fichiers de données.
Charger des fichiers locaux Par défaut, les utilisateurs disposent des autorisations nécessaires pour charger de petits fichiers de données à partir de votre ordinateur local, tels que les CSV. Consultez Créer ou modifier une table à l’aide du chargement de fichiers.

Utiliser les données

Cette section fournit une vue d’ensemble des tâches de données courantes et des outils utilisés pour effectuer ces tâches.

Pour toutes les tâches décrites, les utilisateurs doivent disposer des autorisations appropriées pour les outils, les ressources de calcul, les données et d’autres artefacts d’espace de travail. Consultez Configuration de l’accès aux données et Configuration des espaces de travail et des infrastructures.

Zone des fonctionnalités Resources
Objets de base de données En plus des tables et des vues, Azure Databricks utilise d’autres objets de base de données sécurisables tels que des volumes pour régir en toute sécurité les données. Consultez les objets Database dans Azure Databricks.
Autorisations de données Unity Catalog régit toutes les opérations de lecture et d’écriture dans les espaces de travail activés. Vous devez disposer des autorisations adéquates pour effectuer ces opérations. Consultez Objets sécurisables dans Unity Catalog.
ETL Les charges de travail d’extraction, de transformation et de chargement (ETL) sont parmi les utilisations les plus courantes pour Apache Spark et Azure Databricks, et la plupart de la plateforme a des fonctionnalités générées et optimisées pour ETL. Consultez le tutoriel : Créer un pipeline ETL avec des pipelines déclaratifs Spark Lakeflow.
Queries
Tableaux de bord et insights
  • Les tableaux de bord IA/BI vous permettent d’extraire et de visualiser facilement des insights dans l’interface utilisateur. Consultez Tableaux de bord.
  • Les espaces Genie utilisent des invites textuelles pour répondre aux questions et fournir des analyses éclairées par vos données. Consultez Qu’est-ce qu’un espace AI/BI Genie.
Ingest
  • Lakeflow Connect ingère des données à partir de systèmes externes populaires. Consultez Connecteurs gérés dans Lakeflow Connect.
  • Le chargeur automatique peut être utilisé avec des pipelines déclaratifs Spark Lakeflow ou des travaux de streaming structuré pour ingérer de manière incrémentielle des données à partir du stockage d’objets cloud. Consultez Qu’est-ce que Auto Loader ?.
  • Vous pouvez utiliser des pipelines déclaratifs Spark Lakeflow ou Structured Streaming pour ingérer des données à partir de files d’attente de messages, notamment Kafka. Consultez Interroger des données de streaming.
Transformations Azure Databricks utilise une syntaxe et des outils courants pour les transformations qui vont de la complexité des instructions SQL CTAS aux applications de diffusion en continu en quasi temps réel.
IA et Machine Learning Databricks Data Intelligence Platform fournit une suite d’outils pour la science des données, le Machine Learning et les applications IA. Consultez IA et machine learning sur Databricks.

Configurer l’accès aux données

La plupart des espaces de travail Azure Databricks s’appuient sur un administrateur d’espace de travail ou d’autres utilisateurs power pour configurer des connexions à des sources de données externes et appliquer des privilèges aux ressources de données en fonction de l’appartenance à l’équipe, de la région ou des rôles. Cette section fournit une vue d’ensemble des tâches courantes pour la configuration et le contrôle des aces de données qui nécessitent des autorisations élevées.

Note

Avant de demander des autorisations élevées pour configurer une nouvelle connexion à une source de données, vérifiez si vous manquez simplement des privilèges sur une connexion, un catalogue ou une table existante. Si une source de données n’est pas disponible, consultez votre organisation pour connaître la stratégie d’ajout de nouvelles données à votre espace de travail.

Zone des fonctionnalités Resources
Unity Catalog
  • Unity Catalog alimente les fonctionnalités de gouvernance des données intégrées à la plateforme Databricks Data Intelligence. Voir Qu’est-ce que le catalogue Unity ?.
  • Les administrateurs de compte Databricks, les administrateurs d’espace de travail et les administrateurs de metastore disposent de privilèges par défaut pour gérer les privilèges de données du catalogue Unity pour les utilisateurs. Voir Gérer les privilèges dans Unity Catalog.
Connexions et accès
Sharing
  • Le partage Delta est le cœur de la plateforme sécurisée de partage de données Azure Databricks, qui comprend Databricks Marketplace et les salles blanches. Consultez Partager des données et des ressources IA en toute sécurité avec des utilisateurs d’autres organisations.
  • Les administrateurs peuvent créer des catalogues. Les catalogues fournissent une abstraction de haut niveau pour l’isolation des données et peuvent être liés à des espaces de travail individuels ou partagés entre tous les espaces de travail d’un compte. Consultez Créer des catalogues.- Les tableaux de bord IA/BI encouragent les propriétaires à incorporer leurs informations d’identification lors de la publication, ce qui permet aux spectateurs d’obtenir des insights à partir de résultats partagés. Pour plus d’informations, consultez Partager un tableau de bord.

configurer des espaces de travail et une infrastructure

Cette section fournit une vue d’ensemble des tâches courantes associées aux ressources et à l’infrastructure de l’espace de travail d’administrateur. Les ressources d’espace de travail largement définies sont les suivantes :

  • Ressources de calcul: les ressources de calcul incluent des clusters interactifs à usage unique, des entrepôts SQL, des clusters de travaux et un calcul de pipeline. Un utilisateur ou une charge de travail doit disposer des autorisations nécessaires pour se connecter à l’exécution de ressources de calcul afin de traiter la logique spécifiée.

    Note

    Les utilisateurs qui n’ont pas accès à se connecter à des ressources de calcul ont des fonctionnalités très limitées sur Azure Databricks.

  • Outils de plateforme : la plateforme Databricks Data Intelligence fournit une suite d’outils adaptés à différents cas d’utilisation et profils, tels que des notebooks, Databricks SQL et Mosaic AI. Les administrateurs peuvent personnaliser les paramètres qui incluent les comportements par défaut, les fonctionnalités facultatives et l’accès utilisateur pour la plupart de ces outils.

  • Artefacts : les artefacts incluent des notebooks, des requêtes, des tableaux de bord, des fichiers, des bibliothèques, des pipelines et des travaux. Les artefacts contiennent du code et des configurations que les utilisateurs créent pour effectuer des actions souhaitées sur leurs données.

Important

L’utilisateur qui crée une ressource d’espace de travail reçoit le rôle propriétaire par défaut. Pour la plupart des ressources, les propriétaires peuvent accorder des autorisations à tout autre utilisateur ou groupe dans l’espace de travail.

Pour garantir la sécurité des données et du code, Databricks recommande de configurer le rôle de propriétaire pour tous les artefacts et ressources de calcul déployées sur un espace de travail de production.

Zone des fonctionnalités Resources
Droits de l’espace de travail Les droits d’espace de travail incluent l’accès à l’espace de travail de base, l’accès à Databricks SQL et la création illimitée du cluster. Consultez Gérer les droits d’utilisation.
Stratégies d’accès aux ressources de calcul &
  • La plupart des coûts sur Azure Databricks sont destinés aux ressources de calcul. Contrôler les utilisateurs qui ont la possibilité de configurer, déployer, démarrer et utiliser différentes ressources est essentiel pour contrôler les coûts. Consultez la vue d’ensemble du calcul classique.
  • Les stratégies de calcul fonctionnent en tandem avec les droits de calcul de l’espace de travail pour s’assurer que les utilisateurs autorisés déploient uniquement des ressources de calcul en suivant les règles de configuration spécifiées. Consultez Créer et gérer des stratégies de calcul.
  • Les administrateurs peuvent configurer les comportements par défaut, les stratégies d’accès aux données et l’accès utilisateur aux entrepôts SQL. Consultez Paramètres d’administration des entrepôts SQL.
Outils de plateforme Utilisez la console d’administration pour configurer des comportements allant de la personnalisation de l’apparence de l’espace de travail à l’activation ou à la désactivation des produits et fonctionnalités. Consultez pour gérer votre espace de travail.
Listes de contrôle d’accès de l’espace de travail Les listes de contrôle d’accès de l’espace de travail régissent la façon dont les utilisateurs et les groupes peuvent interagir avec les ressources de l’espace de travail, notamment les ressources de calcul, les artefacts de code et les travaux. Consultez Listes de contrôle d’accès.

Production des charges de travail

Tous les produits Azure Databricks sont conçus pour accélérer le chemin du développement à la production, et pour la mise à l’échelle et la stabilité. Cette section présente brièvement la suite d’outils recommandés pour la mise en production des charges de travail.

Zone des fonctionnalités Resources
Pipelines ETL Lakeflow Spark Declarative Pipelines fournit une syntaxe déclarative pour la création et la production de pipelines ETL. Consultez pipelines déclaratifs Lakeflow Spark.
Orchestration Les tâches vous permettent de définir des flux de travail complexes avec des dépendances, des déclencheurs et des horaires. Consultez les offres d'emploi Lakeflow.
CI/CD Les bundles de ressources Databricks facilitent la gestion et le déploiement de données, de ressources et d’artefacts entre les espaces de travail. Consultez Que sont les packs de ressources Databricks ?.