Verbindung mit Datenquellen herstellen

Dieser Artikel enthält fundierte Empfehlungen dafür, wie Administrator*innen und andere Poweruser*innen Verbindungen zwischen Azure Databricks und Datenquellen konfigurieren können. Wenn Sie ermitteln möchten, ob Sie Zugriff zum Lesen von Daten aus einem externen System haben, überprüfen Sie zunächst die Daten, auf die Sie in Ihrem Arbeitsbereich zugreifen können. Weitere Informationen finden Sie unter Daten entdecken.

Sie können Ihr Azure Databricks-Konto mit Datenquellen wie Cloudobjektspeicher, Managementsystemen für relationale Datenbanken, Streamingdatendiensten und Unternehmensplattformen wie CRMs verbinden. Die spezifischen Berechtigungen, die zum Konfigurieren von Verbindungen erforderlich sind, hängen von der Datenquelle, der Konfiguration von Berechtigungen in Ihrem Azure Databricks-Arbeitsbereich, den erforderlichen Berechtigungen für die Interaktion mit Daten in der Quelle, Ihrem Datengovernancemodell und Ihrer bevorzugten Methode für die Verbindung ab.

Die meisten Methoden erfordern erhöhte Berechtigungen sowohl für die Datenquelle als auch für den Azure Databricks-Arbeitsbereich, um die erforderlichen Berechtigungen für die Integration von Systemen zu konfigurieren. Benutzer*innen ohne diese Berechtigungen sollten Hilfe anfordern. Weitere Informationen finden Sie unter Anfordern des Zugriffs auf Datenquellen.

Konfigurieren von Objektspeicherverbindungen

Cloudobjektspeicher bildet die Basis zum Speichern der meisten Daten in Azure Databricks. Weitere Informationen zum Cloudobjektspeicher und dazu, wo Azure Databricks Daten speichert, finden Sie unter Wohin schreibt Azure Databricks Daten?.

Databricks empfiehlt die Verwendung von Unity Catalog, um den Zugriff den Cloudobjektspeicher zu konfigurieren. Unity Catalog bietet Datengovernance für strukturierte und unstrukturierte Daten im Cloudobjektspeicher. Weitere Informationen finden Sie unter Herstellen einer Verbindung mit Cloudobjektspeichern mithilfe von Unity Catalog.

Kunden, die Unity Catalog nicht verwenden, müssen Verbindungen mithilfe von legacy-Methoden konfigurieren. Weitere Informationen finden Sie unter Konfigurieren des Zugriffs auf Cloudobjektspeicher für Azure Databricks.

Informationen zum Konfigurieren von Netzwerken in Cloudobjektspeicher finden Sie unter Netzwerk.

Konfigurieren von Verbindungen mit externen Datensystemen

Databricks empfiehlt je nach Ihren Anforderungen mehrere Optionen zum Konfigurieren von Verbindungen mit externen Datensystemen. Die folgende Tabelle bietet einen allgemeinen Überblick über diese Optionen:

Option Beschreibung
Lakehouse-Verbund Bietet schreibgeschützten Zugriff auf Daten in Unternehmensdatensystemen. Verbindungen werden über Unity Catalog auf Katalog- oder Schemaebene konfiguriert. Dabei werden mehrere Tabellen mit einer einzigen Konfiguration synchronisiert. Weitere Informationen finden Sie unter Was ist der Lakehouse-Verbund?.
Partner Connect Nutzt Technologiepartnerlösungen, um eine Verbindung mit externen Datenquellen herzustellen und das Erfassen von Daten im Lakehouse zu automatisieren. Einige Lösungen umfassen auch umgekehrtes ETL und direkten Zugriff auf Lakehouse-Daten aus externen Systemen. Siehe Was ist Databricks Partner Connect?.
Treiber Azure Databricks enthält Treiber für externe Datensysteme in jeder Databricks Runtime-Instanz. Sie können optional Treiber von Drittanbietern installieren, um auf Daten in anderen Systemen zuzugreifen. Sie müssen Verbindungen für jede Tabelle konfigurieren. Einige Treiber umfassen Schreibzugriff. Weitere Informationen finden Sie unter Herstellen einer Verbindung mit externen Systemen.
JDBC Mehrere enthaltene Treiber für externe Systeme bauen auf nativer JDBC-Unterstützung auf, und die JDBC-Option bietet erweiterbare Optionen für die Konfiguration von Verbindungen mit anderen Systemen. Sie müssen Verbindungen für jede Tabelle konfigurieren. Weitere Informationen finden Sie unter Abfragen von Datenbanken mit JDBC.

Verbinden mit Streamingdatenquellen

Azure Databricks bietet optimierte Connectors für viele Streamingdatensysteme.

Für alle Streamingdatenquellen müssen Sie Anmeldeinformationen generieren, die Zugriff ermöglichen, und diese Anmeldeinformationen in Azure Databricks laden. Databricks empfiehlt das Speichern von Anmeldeinformationen mithilfe von Geheimnissen, da Sie Geheimnisse für alle Konfigurationsoptionen und in allen Zugriffsmodi verwenden können.

Alle Datenconnectors für Streamingquellen unterstützen das Übergeben von Anmeldeinformationen mithilfe von Optionen, wenn Sie Streamingabfragen definieren. Weitere Informationen finden Sie unter Konfigurieren von Streamingdatenquellen.

Anfordern des Zugriffs auf Datenquellen

In vielen Organisationen verfügen die meisten Benutzer*innen nicht über ausreichende Berechtigungen für Azure Databricks oder externe Datenquellen, um Datenverbindungen zu konfigurieren.

Möglicherweise hat Ihre Organisation den Zugriff auf eine Datenquelle bereits mithilfe eines der Muster konfiguriert, die in den auf dieser Seite verlinkten Artikeln beschrieben sind. Wenn Ihre Organisation über einen klar definierten Prozess zum Anfordern des Zugriffs auf Daten verfügt, empfiehlt Databricks, sich an diesen Prozess zu halten.

Wenn Sie nicht sicher sind, wie Sie Zugriff auf eine Datenquelle erhalten, kann Ihnen dieses Verfahren helfen:

  1. Verwenden Sie den Katalog-Explorer, um die Tabellen und Volumes anzuzeigen, auf die Sie zugreifen können. Weitere Informationen finden Sie unter Was ist der Katalog-Explorer?.
  2. Fragen Sie Ihre Teamkolleg*innen oder Vorgesetzten nach den Datenquellen, auf die sie zugreifen können.
    • Die meisten Organisationen verwenden Gruppen, die von ihrem Identitätsanbieter (z. B. Okta oder Microsoft Entra ID (ehemals Azure Active Directory)) synchronisiert werden, um Berechtigungen für Arbeitsbereichsbenutzer zu verwalten. Wenn andere Mitglieder Ihres Teams auf Datenquellen zugreifen können, auf die Sie Zugriff benötigen, lassen Sie sich von einem*einer Arbeitsbereichsadministrator*in zur richtigen Gruppe hinzufügen, um Ihnen Zugriff zu gewähren.
    • Wenn eine bestimmte Tabelle, ein bestimmtes Volume oder eine bestimmte Datenquelle von einem Kollegen oder einer Kollegin konfiguriert wurde, sollte diese Person über Berechtigungen verfügen, um Ihnen Zugriff auf die Daten zu gewähren.
  3. Einige Organisationen konfigurieren Datenzugriffsberechtigungen über Einstellungen für Computecluster und SQL-Warehouses.
    • Der Zugriff auf Datenquellen kann je nach Computeressource variieren.
    • Sie können den*die Computeersteller*in auf der Registerkarte Compute anzeigen. Wenden Sie sich an den*die Ersteller*in, um nach Datenquellen zu fragen, die zugänglich sein sollten.