Herstellen einer Verbindung mit StreamSets

2025-04-30

Wichtig

Dieses Feature befindet sich in der öffentlichen Vorschau.

StreamSets unterstützt Sie beim Verwalten und Überwachen Ihres Datenflusses während des gesamten Lebenszyklus. Mit der nativen Integration von StreamSets in Azure Databricks und Delta Lake können Sie Daten aus verschiedenen Quellen pullen und Ihre Pipelines einfach verwalten.

Eine allgemeine Demonstration von StreamSets finden Sie im folgenden YouTube-Video (10 Minuten).

Hier finden Sie die Schritte für die Verwendung von StreamSets mit Azure Databricks.

Schritt 1: Generieren eines persönlichen Databricks-Zugriffstokens

StreamSets authentifiziert sich bei Azure Databricks mithilfe eines persönlichen Azure Databricks-Zugriffstokens.

Hinweis

Als bewährte Sicherheitsmaßnahme empfiehlt Databricks, dass Sie bei der Authentifizierung mit automatisierten Tools, Systemen, Skripten und Apps persönliche Zugriffstoken von Dienstprinzipalen anstelle von Arbeitsbereichsbenutzern verwenden. Informationen zum Erstellen von Token für Dienstprinzipale finden Sie unter "Verwalten von Token für einen Dienstprinzipal".

Schritt 2: Einrichten eines Clusters zur Unterstützung von Integrationsanforderungen

StreamSets schreibt Daten in einen Azure Data Lake Storage-Pfad, und der Azure Databricks-Integrationscluster liest Daten von diesem Speicherort. Daher erfordert der Integrationscluster sicheren Zugriff auf den Azure Data Lake Storage-Pfad.

Sicherer Zugriff auf einen Azure Data Lake Storage-Pfad

Nutzen Sie für einen sicheren Zugriff auf Daten in Azure Data Lake Storage (ADLS) einen Zugriffsschlüssel für das Azure-Speicherkonto (empfohlen) oder einen Microsoft Entra ID-Dienstprinzipal.

Verwenden eines Zugriffsschlüssels für das Azure-Speicherkonto

Sie können einen Zugriffsschlüssel für das Speicherkonto auf dem Integrationscluster als Teil der Spark-Konfiguration konfigurieren. Stellen Sie sicher, dass das Speicherkonto Zugriff auf den ADLS-Container und das Dateisystem besitzt, die für das Staging von Daten verwendet werden, sowie auf den ADLS-Container und das Dateisystem, in denen Sie die Delta Lake-Tabellen schreiben möchten. Um den Integrationscluster für die Verwendung des Schlüssels zu konfigurieren, führen Sie die Schritte unter "Herstellen einer Verbindung mit Azure Data Lake Storage" und "Blob Storage" aus.

Verwenden eines Microsoft Entra ID-Dienstprinzipals

Im Rahmen der Spark-Konfiguration können Sie einen Dienstprinzipal auf dem Azure Databricks-Integrationscluster konfigurieren. Stellen Sie sicher, dass der Dienstprinzipal Zugriff auf den ADLS-Container besitzt, der für das Staging von Daten verwendet wird, sowie auf den ADLS-Container, in den Sie die Delta-Tabellen schreiben möchten. Führen Sie die Schritte in Access ADLS mit Dienstprinzipal aus, um den Integrationscluster für die Verwendung des Dienstprinzipals zu konfigurieren.

Angeben der Clusterkonfiguration

Legen Sie den Clustermodus auf "Standard" fest.
Legen Sie databricks Runtime-Version auf Runtime fest: 6.3 oder höher.
Aktivieren Sie optimierte Schreibvorgänge und automatische Komprimierung , indem Sie ihrer Spark-Konfiguration die folgenden Eigenschaften hinzufügen:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Konfigurieren Sie Ihren Cluster je nach Ihren Integrations- und Skalierungsanforderungen.

Ausführliche Informationen zur Clusterkonfiguration finden Sie unter Computekonfigurationsreferenz.

Weitere Informationen finden Sie unter Abrufen von Verbindungsdetails für eine Azure Databricks-Computeressource, um die JDBC-URL und den HTTP-Pfad zu erhalten.

Schritt 3: Abrufen der JDBC- und ODBC-Verbindungsdetails zum Herstellen einer Verbindung mit einem Cluster

Zum Verbinden eines Azure Databricks-Clusters mit StreamSets benötigen Sie die folgenden JDBC/ODBC-Verbindungseigenschaften:

JDBC-URL
HTTP-Pfad

Schritt 4: Abrufen von StreamSets für Azure Databricks

Registrieren Sie sich für StreamSets für Databricks, wenn Sie noch kein StreamSets-Konto besitzen. Sie können kostenlos beginnen und ein Upgrade durchführen, wenn Sie bereit sind. siehe StreamSets DataOps Platform Pricing.

Schritt 5: Verwenden von StreamSets zum Laden von Daten in Delta Lake

Beginnen Sie mit einer Beispielpipeline oder sehen Sie sich das Laden von Daten in Databricks Delta Lake an, um zu erfahren, wie Sie eine Pipeline erstellen, die Daten in Delta Lake einnimmt.

Zusätzliche Ressourcen

Unterstützen

Freigeben über

Herstellen einer Verbindung mit StreamSets

Schritt 1: Generieren eines persönlichen Databricks-Zugriffstokens

Schritt 2: Einrichten eines Clusters zur Unterstützung von Integrationsanforderungen

Sicherer Zugriff auf einen Azure Data Lake Storage-Pfad

Verwenden eines Zugriffsschlüssels für das Azure-Speicherkonto

Verwenden eines Microsoft Entra ID-Dienstprinzipals

Angeben der Clusterkonfiguration

Schritt 3: Abrufen der JDBC- und ODBC-Verbindungsdetails zum Herstellen einer Verbindung mit einem Cluster

Schritt 4: Abrufen von StreamSets für Azure Databricks

Schritt 5: Verwenden von StreamSets zum Laden von Daten in Delta Lake

Zusätzliche Ressourcen

Feedback

Zusätzliche Ressourcen