Se connecter aux sources de données

Cet article fournit des recommandations avisées sur la façon dont les administrateurs et d’autres utilisateurs chevronnés peuvent configurer des connexions entre Azure Databricks et des sources de données. Si vous essayez de déterminer si vous avez un accès en lecture à des données d’un système externe, commencez par examiner les données auxquelles vous avez accès dans votre espace de travail. Consultez Découvrir des données.

Vous pouvez connecter votre compte Azure Databricks à des sources de données telles que le stockage d’objets cloud, les systèmes de gestion de base de données relationnelle, les services de données de streaming et les plateformes d’entreprise telles que la gestion de la relation client (CRM). Les privilèges spécifiques requis pour configurer les connexions dépendent de la source de données, de la façon dont les autorisations dans votre espace de travail Azure Databricks sont configurées, des autorisations requises pour interagir avec les données dans la source, de votre modèle de gouvernance des données et de votre méthode préférée pour la connexion.

La plupart des méthodes nécessitent des privilèges élevés sur la source de données et l’espace de travail Azure Databricks afin de configurer les autorisations nécessaires pour intégrer des systèmes. Les utilisateurs ne disposant pas de ces autorisations doivent demander de l’aide. Consultez Demander l’accès à des sources de données.

Configurer des connexions de stockage d’objets

Le stockage d’objets cloud fournit la base du stockage de la plupart des données sur Azure Databricks. Pour en savoir plus sur le stockage d’objets cloud et sur l’emplacement où Azure Databricks stocke les données, consultez Où Azure Databricks écrit-il les données ?.

Databricks recommande d’utiliser Unity Catalog pour configurer l’accès au stockage d’objets cloud. Unity Catalog fournit une gouvernance des données pour les données structurées et non structurées dans le stockage d’objets cloud. Consultez Se connecter au stockage d’objets cloud à l’aide de Unity Catalog.

Les clients qui n’utilisent pas Unity Catalog doivent configurer des connexions à l’aide d’une autre approche. Consultez Configurer l’accès au stockage d’objets cloud pour Azure Databricks.

Pour configurer la mise en réseau vers le stockage d’objets cloud, consultez Mise en réseau.

Configurer des connexions à des systèmes de données externes

Databricks recommande plusieurs options pour la configuration des connexions à des systèmes de données externes en fonction de vos besoins. Le tableau suivant fournit une vue d’ensemble de ces options :

Option Description
Lakehouse Federation Fournit un accès en lecture seule aux données dans des systèmes de données d’entreprise. Les connexions sont configurées par le biais de Unity Catalog au niveau du catalogue ou du schéma, en synchronisant plusieurs tables avec une configuration unique. Consultez Présentation de Lakehouse Federation.
Partner Connect Tire parti des solutions de partenaires technologiques pour se connecter à des sources de données externes et automatiser l’ingestion de données dans le lakehouse. Certaines solutions incluent également les opérations ETL inverses et l’accès direct aux données de lakehouse à partir de systèmes externes. Consultez Qu’est-ce que Databricks Partner Connect ?.
Pilotes Azure Databricks inclut des pilotes pour les systèmes de données externes dans chaque Runtime Databricks. Vous pouvez éventuellement installer des pilotes tiers pour accéder aux données dans d’autres systèmes. Vous devez configurer des connexions pour chaque table. Certains pilotes incluent l’accès en écriture. Consultez Se connecter à des systèmes externes.
JDBC Plusieurs pilotes inclus pour les systèmes externes s’appuient sur la prise en charge native de JDBC, et l’option JDBC fournit des options extensibles pour la configuration des connexions à d’autres systèmes. Vous devez configurer des connexions pour chaque table. Consultez Interroger des bases de données en utilisant JDBC.

Se connecter à des sources de données de streaming

Azure Databricks fournit des connecteurs optimisés pour de nombreux systèmes de données de streaming.

Pour toutes les sources de données de streaming, vous devez générer des informations d’identification qui fournissent l’accès et chargent ces informations d’identification dans Azure Databricks. Databricks recommande de stocker les informations d’identification à l’aide de secrets, car vous pouvez utiliser des secrets pour toutes les options de configuration et dans tous les modes d’accès.

Tous les connecteurs de données pour les sources de streaming prennent en charge la transmission d’informations d’identification à l’aide d’options lorsque vous définissez des requêtes de streaming. Consultez Configurer des sources de diffusion de streaming.

Demander l’accès à des sources de données

Dans de nombreuses organisations, la plupart des utilisateurs n’ont pas suffisamment de privilèges sur Azure Databricks ou sur les sources de données externes pour pouvoir configurer des connexions de données.

Votre organisation a peut-être déjà configuré l’accès à une source de données à l’aide de l’un des modèles décrits dans les articles liés à partir de cette page. Si votre organisation dispose d’un processus bien défini pour demander l’accès aux données, Databricks recommande de suivre ce processus.

Si vous ne savez pas comment accéder à une source de données, cette procédure peut vous aider :

  1. Utilisez Catalog Explorer pour afficher les tables et les volumes auxquels vous pouvez accéder. Consultez Qu’est-ce que Catalog Explorer ?.
  2. Demandez à vos collègues ou responsables quelles sont les sources de données auxquelles ils peuvent accéder.
    • La plupart des organisations utilisent des groupes synchronisés à partir de leur fournisseur d’identité (par exemple, Okta ou Microsoft Entra ID(anciennement Azure Active Directory)) afin de gérer les autorisations pour les utilisateurs de l’espace de travail. Si d’autres membres de votre équipe peuvent accéder aux sources de données auxquelles vous avez besoin d’accéder, demandez à un administrateur d’espace de travail qu’il vous ajoute au groupe approprié pour vous accorder l’accès.
    • Si une table, une source de données ou un volume particulier a été configuré par un collègue, celui-ci doit disposer des autorisations nécessaires pour vous accorder l’accès aux données.
  3. Certaines organisations configurent les autorisations d’accès aux données via les paramètres des clusters de calcul et des entrepôts SQL.
    • L’accès aux sources de données peut varier en fonction du calcul.
    • Vous pouvez afficher le créateur de calcul sous l’onglet Calcul. Contactez le créateur afin de connaître les sources de données qui doivent être accessibles.