Verwenden eines registrierten Community-Connectors

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.

Auf dieser Seite wird gezeigt, wie Sie einen registrierten Community-Connector verwenden, um Daten aus einer unterstützten Quelle in Azure Databricks aufzunehmen. Informationen zum Erstellen eines benutzerdefinierten Connectors für eine Quelle, die noch nicht unterstützt wird, finden Sie unter Erstellen eines benutzerdefinierten Connectors.

Anforderungen

  • Ein Azure Databricks Arbeitsbereich mit aktiviertem Unity-Katalog
  • Eine Verbindung zur Quelle, die Sie einbinden möchten, oder Berechtigungen, um eine Verbindung zu erstellen
  • Schreibzugriff auf einen Katalog und ein Schema für die ingestierten Tabellen

Erstellen einer Aufnahmepipeline

So verwenden Sie einen registrierten Community-Connector:

  1. Klicken Sie in der Randleiste Ihres Azure Databricks Arbeitsbereichs auf +Neu>Daten hinzufügen oder hochladen und wählen Sie dann die Quelle unter Community Connectors aus.

  2. Klicken Sie auf +Verbindung erstellen , oder wählen Sie eine vorhandene Verbindung aus, und klicken Sie dann auf Weiter.

  3. Geben Sie für den Pipelinenamen einen Namen für die Pipeline ein.

  4. Geben Sie für den Speicherort des Ereignisprotokolls einen Katalognamen und einen Schemanamen ein. Azure Databricks speichert hier das Pipelineereignisprotokoll. Aufgenommene Tabellen werden auch standardmäßig hier geschrieben.

  5. Geben Sie für den Stammpfad Ihren Arbeitsbereichspfad ein (z. B. /Workspace/Users/<your-email>/connectors). Azure Databricks klont und speichert den Connector-Quellcode hier.

  6. Klicken Sie auf "Pipeline erstellen".

  7. Im Pipeline-Editor öffnen Sie ingest.py und aktualisieren das Feld Objekte, um die Tabellen einzuschließen, die Sie aufnehmen möchten. Beispiel:

    from databricks.labs.community_connector.pipeline import ingest
    
    pipeline_spec = {
        "connection_name": "my_stripe_connection",  # Required: UC connection name
        "objects": [
            {"table": {"source_table": "charges"}},
            {"table": {"source_table": "customers",
                       "destination_table": "stripe_customers"}},
        ],
    }
    
    ingest(spark, pipeline_spec)
    
  8. Führen Sie die Pipeline manuell aus, oder planen Sie sie.

Pipelinekonfigurationsoptionen

Sie können die folgenden Optionen konfigurieren in ingest.py:

Auswahl Description
connection_name Erforderlich. Der Name der Verbindung, die Authentifizierungsanmeldeinformationen für die Quelle speichert.
objects Erforderlich. Eine Liste der zu aufnehmenden Tabellen. Jeder Eintrag weist das Format {"table": {"source_table": "..."}}auf. Sie können auch ein optionales destination_table innerhalb des table Objekts angeben.
destination_catalog Der Katalog, in dem importierte Tabellen abgelegt werden. Standardeinstellung für den Katalog, der während der Pipelineerstellung festgelegt wurde.
destination_schema Das Schema, in das eingelesene Tabellen geschrieben werden. Standardeinstellung für das Schema, das während der Pipelineerstellung festgelegt wurde.
scd_type Die langsam ändernde Dimensionstrategie: SCD_TYPE_1, SCD_TYPE_2 oder APPEND_ONLY. Wird standardmäßig auf SCD_TYPE_1 festgelegt.
primary_keys Überschreiben Sie die voreingestellten Primärschlüssel einer Tabelle. Geben Sie eine Liste von Spaltennamen an.