Verwenden eines registrierten Community-Connectors

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.

Auf dieser Seite wird gezeigt, wie Sie einen registrierten Community-Connector verwenden, um Daten aus einer unterstützten Quelle in Azure Databricks aufzunehmen. Informationen zum Erstellen eines benutzerdefinierten Connectors für eine Quelle, die noch nicht unterstützt wird, finden Sie unter Erstellen eines benutzerdefinierten Connectors.

Anforderungen

Ein Azure Databricks Arbeitsbereich mit aktiviertem Unity-Katalog
Eine Verbindung zur Quelle, die Sie einbinden möchten, oder Berechtigungen, um eine Verbindung zu erstellen
Schreibzugriff auf einen Katalog und ein Schema für die ingestierten Tabellen

Erstellen einer Aufnahmepipeline

So verwenden Sie einen registrierten Community-Connector:

Klicken Sie in der Randleiste Ihres Azure Databricks Arbeitsbereichs auf +Neu>Daten hinzufügen oder hochladen und wählen Sie dann die Quelle unter Community Connectors aus.
Klicken Sie auf +Verbindung erstellen , oder wählen Sie eine vorhandene Verbindung aus, und klicken Sie dann auf Weiter.
Geben Sie für den Pipelinenamen einen Namen für die Pipeline ein.
Geben Sie für den Speicherort des Ereignisprotokolls einen Katalognamen und einen Schemanamen ein. Azure Databricks speichert hier das Pipelineereignisprotokoll. Aufgenommene Tabellen werden auch standardmäßig hier geschrieben.
Geben Sie für den Stammpfad Ihren Arbeitsbereichspfad ein (z. B. /Workspace/Users/<your-email>/connectors). Azure Databricks klont und speichert den Connector-Quellcode hier.
Klicken Sie auf "Pipeline erstellen".

Im Pipeline-Editor öffnen Sie ingest.py und aktualisieren das Feld Objekte, um die Tabellen einzuschließen, die Sie aufnehmen möchten. Beispiel:

from databricks.labs.community_connector.pipeline import ingest

pipeline_spec = {
    "connection_name": "my_stripe_connection",  # Required: UC connection name
    "objects": [
        {"table": {"source_table": "charges"}},
        {"table": {"source_table": "customers",
                   "destination_table": "stripe_customers"}},
    ],
}

ingest(spark, pipeline_spec)

Führen Sie die Pipeline manuell aus, oder planen Sie sie.

Pipelinekonfigurationsoptionen

Sie können die folgenden Optionen konfigurieren in ingest.py:

Auswahl	Description
`connection_name`	Erforderlich. Der Name der Verbindung, die Authentifizierungsanmeldeinformationen für die Quelle speichert.
`objects`	Erforderlich. Eine Liste der zu aufnehmenden Tabellen. Jeder Eintrag weist das Format `{"table": {"source_table": "..."}}`auf. Sie können auch ein optionales `destination_table` innerhalb des `table` Objekts angeben.
`destination_catalog`	Der Katalog, in dem importierte Tabellen abgelegt werden. Standardeinstellung für den Katalog, der während der Pipelineerstellung festgelegt wurde.
`destination_schema`	Das Schema, in das eingelesene Tabellen geschrieben werden. Standardeinstellung für das Schema, das während der Pipelineerstellung festgelegt wurde.
`scd_type`	Die langsam ändernde Dimensionstrategie: `SCD_TYPE_1`, `SCD_TYPE_2` oder `APPEND_ONLY`. Wird standardmäßig auf `SCD_TYPE_1` festgelegt.
`primary_keys`	Überschreiben Sie die voreingestellten Primärschlüssel einer Tabelle. Geben Sie eine Liste von Spaltennamen an.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-03