Databricks Asset Bundles Entwicklung

2024-10-07

In diesem Artikel wird die Entwicklung und der Lebenszyklus eines Databricks Asset Bundle beschrieben. Allgemeine Informationen zu Databricks Asset Bundles finden Sie unter Was sind Databricks Asset Bundles?.

Lebenszyklus eines Bundles

Um zu verstehen, wie Bundles effektiv verwendet werden können, müssen Sie den grundlegenden Lebenszyklus eines Bundle verstehen:

Die Bundle-Struktur wird basierend auf einem Projekt erstellt.
Das Bundle-Projekt wird lokal entwickelt. Ein Bundle enthält Konfigurationsdateien, die Infrastruktur- und Arbeitsbereichseinstellungen wie Bereitstellungsziele, Einstellungen für Databricks-Ressourcen wie Aufträge und Pipelines sowie Quelldateien und andere Artefakte definieren.
Das Bundle-Projekt wird überprüft. Die Überprüfung überprüft die Einstellungen und Ressourcendefinitionen in der Bundle-Konfiguration anhand der entsprechenden Objektschemas, um sicherzustellen, dass das Bundle für Databricks bereitgestellt werden kann.
Das Bundle wird in einem Zielarbeitsbereich bereitgestellt. Am häufigsten wird ein Bündel zum Testen zuerst im persönlichen Entwicklungsarbeitsbereich eines Benutzers bereitgestellt. Sobald das Testen des Bundles abgeschlossen ist, kann das Bundle für das Staging bereitgestellt werden und dann Produktionsziele.
Workflowressourcen, die im bereitgestellten Bundle definiert sind, können ausgeführt werden. Sie können beispielsweise einen Auftrag ausführen.
Wenn das Bundle nicht mehr verwendet wird, kann es dauerhaft zerstört werden.

Sie verwenden die CLI Bundle-Befehle von Databricks zum Erstellen, Überprüfen, Bereitstellen, Ausführen und Zerstören von Bundles, wie in den folgenden Abschnitten beschrieben.

Schritt 1: Erstellen eines Bundle

Es gibt drei Möglichkeiten, mit dem Erstellen eines Pakets zu beginnen:

Verwenden der Standardpaketvorlage
Verwenden einer benutzerdefinierten Paketvorlage
Erstellen Sie ein Paket manuell.

Verwenden einer standardmäßigen Paketvorlage

Wenn Sie eine Azure Databricks-Standardpaketvorlage zum Erstellen eines Startpakets verwenden möchten, das Sie dann weiter anpassen können, verwenden Sie die Databricks-CLI (Version 0.218.0 oder höher) zum Ausführen des bundle init-Befehls, der es ermöglicht, aus einer Liste der verfügbaren Vorlagen auszuwählen. Siehe Erstellen eines Bundles auf der Grundlage einer Projektvorlage.

databricks bundle init

Sie können die Quelle für die Standardpaketvorlagen in den öffentlichen GitHub-Repositorys databricks/cli und databricks/mlops-stacks anzeigen.

Fahren Sie mit Schritt 2: Auffüllen der Paketkonfigurationsdateien fort.

Verwenden einer benutzerdefinierten Bündelvorlage

Um eine andere Paketvorlage als die Azure Databricks-Standardpaketvorlage zu verwenden, müssen Sie den lokalen Pfad oder die URL zum Speicherort der Remotepaketvorlage kennen. Verwenden Sie hierzu Databricks CLI in der Version 0.218.0 oder höher, um den Befehl bundle init wie folgt auszuführen:

databricks bundle init <project-template-local-path-or-url>

Weitere Informationen zu diesem Befehl finden Sie unter Databricks-Ressourcenpaketvorlagen. Informationen zu einer bestimmten Bündelvorlage finden Sie in der Dokumentation des Bündelvorlagenanbieters.

Fahren Sie mit Schritt 2: Auffüllen der Paketkonfigurationsdateien fort.

Manuelles Erstellen eines Pakets

Wenn Sie ein Paket nicht unter Verwendung einer Paketvorlage sondern manuell erstellen möchten, erstellen Sie ein Projektverzeichnis auf Ihrem lokalen Computer oder ein leeres Verzeichnis mit einem Git-Drittanbieter.

Erstellen Sie in Ihrem Verzeichnis oder Repository eine oder mehrere Paketkonfigurationsdateien als Eingabe. Diese Dateien werden im YAML-Format ausgedrückt. Es muss mindestens eine (und nur eine) Paketkonfigurationsdatei mit dem Namen databricks.yml sein. Auf zusätzliche Paketkonfigurationsdateien muss in der include-Zuordnung der databricks.yml-Datei verwiesen werden.

Um YAML-Dateien, die der Syntax der Konfiguration von Databricks-Ressourcenpaketen entsprechen, einfacher und schneller zu erstellen, können Sie Tools wie Visual Studio Code, PyCharm Professional oder IntelliJ IDEA Ultimate, die Unterstützung für YAML-Dateien und JSON-Schemadateien bieten, wie folgt verwenden:

Visual Studio Code

Fügen Sie Visual Studio Code-Unterstützung für YAML-Sprachserver hinzu, z. B. durch Installieren der YAML-Erweiterung aus dem Visual Studio Code Marketplace.
Generieren Sie die JSON-Schemadatei der Konfiguration von Databricks-Ressourcenpaketen, indem Sie die Databricks-CLI in der Version 0.218.0 oder höher verwenden, um den bundle schema-Befehl auszuführen und die Ausgabe an eine JSON-Datei umzuleiten. Generieren Sie beispielsweise wie folgt eine Datei namens „bundle_config_schema.json“ im aktuellen Verzeichnis:
```
databricks bundle schema > bundle_config_schema.json
```
Verwenden Sie Visual Studio Code, um eine Bundlekonfigurationsdatei im aktuellen Verzeichnis zu erstellen oder zu öffnen. Diese Datei muss den Namen databricks.yml haben.
Fügen Sie am Anfang Ihrer Bundlekonfigurationsdatei den folgenden Kommentar hinzu:
```
# yaml-language-server: $schema=bundle_config_schema.json
```
Hinweis

Wenn sich die JSON-Schemadatei ihrer Databricks-Ressourcenbundlekonfiguration in einem anderen Pfad befindet, ersetzen Sie bundle_config_schema.json im vorherigen Kommentar durch den vollständigen Pfad zu Ihrer Schemadatei.
Verwenden Sie die YAML-Sprachserverfunktionen, die Sie zuvor hinzugefügt haben. Weitere Informationen finden Sie in der Dokumentation ihres YAML-Sprachservers.

PyCharm Professional

Generieren Sie die JSON-Schemadatei der Konfiguration von Databricks-Ressourcenpaketen, indem Sie die Databricks-CLI in der Version 0.218.0 oder höher verwenden, um den bundle schema-Befehl auszuführen und die Ausgabe an eine JSON-Datei umzuleiten. Generieren Sie beispielsweise wie folgt eine Datei namens „bundle_config_schema.json“ im aktuellen Verzeichnis:
```
databricks bundle schema > bundle_config_schema.json
```
Konfigurieren Sie PyCharm, um die JSON-Schemadatei der Bundlekonfiguration zu erkennen. Schließen Sie dann die JSON-Schemazuordnung ab, indem Sie die Anweisungen unter Konfigurieren eines benutzerdefinierten JSON-Schemasbefolgen.
Verwenden Sie PyCharm, um eine Bundlekonfigurationsdatei zu erstellen oder zu öffnen. Diese Datei muss den Namen databricks.yml haben. Während der Eingabe sucht PyCharm nach JSON-Schemasyntax und -formatierung und stellt Codeabschlusshinweise bereit.

IntelliJ IDEA Ultimate

Generieren Sie die JSON-Schemadatei der Konfiguration von Databricks-Ressourcenpaketen, indem Sie die Databricks-CLI in der Version 0.218.0 oder höher verwenden, um den bundle schema-Befehl auszuführen und die Ausgabe an eine JSON-Datei umzuleiten. Generieren Sie beispielsweise wie folgt eine Datei namens „bundle_config_schema.json“ im aktuellen Verzeichnis:
```
databricks bundle schema > bundle_config_schema.json
```
Konfigurieren Sie IntelliJ IDEA, um die JSON-Schemadatei der Bundlekonfiguration zu erkennen. Schließen Sie dann die JSON-Schemazuordnung ab, indem Sie die Anweisungen unter Konfigurieren eines benutzerdefinierten JSON-Schemasbefolgen.
Verwenden Sie IntelliJ IDEA, um eine Bundlekonfigurationsdatei zu erstellen oder zu öffnen. Diese Datei muss den Namen databricks.yml haben. Während der Eingabe sucht IntelliJ IDEA nach JSON-Schemasyntax und -formatierung und stellt Codeabschlusshinweise bereit.

Schritt 2: Auffüllen der Paketkonfigurationsdateien

Paketkonfigurationsdateien definieren Ihre Azure Databricks-Workflows, indem sie Einstellungen wie Arbeitsbereichsdetails, Artefaktnamen, Dateispeicherorte, Auftragsdetails und Pipelinedetails angeben. In der Regel enthält die Bundlekonfiguration auch Entwicklungs-, Staging- und Produktionsbereitstellungsziele. Detaillierte Informationen zu Paketkonfigurationsdateien finden Sie unter Konfiguration für Databricks-Ressourcenpakete.

Sie können den bundle generate Befehl verwenden, um die Paketkonfiguration für eine vorhandene Ressource im Arbeitsbereich automatisch zu generieren und dann bundle deployment bind die Bundlekonfiguration mit der Ressource im Arbeitsbereich zu verknüpfen, um sie synchron zu halten. Siehe Generieren einer Bündelkonfigurationsdatei und Binden einer Bundleressource.

Schritt 3: Überprüfen der Paketkonfigurationsdateien

Bevor Sie Artefakte bereitstellen oder einen Auftrag oder eine Pipeline ausführen, sollten Sie überprüfen, ob Definitionen in den Bundlekonfigurationsdateien gültig sind. Führen Sie dazu den bundle validate Befehl aus dem Stammverzeichnis des Bundleprojekts aus. Siehe Überprüfen eines Bündels.

databricks bundle validate

Wenn die Überprüfung erfolgreich ist, wird eine Zusammenfassung der Bundleidentität und eine Bestätigungsmeldung zurückgegeben. Verwenden Sie den databricks bundle schema Befehl, um das Schema auszugeben. Siehe Anzeigen des Bundlekonfigurationsschemas.

Schritt 4: Bereitstellen des Bundles

Stellen Sie vor der Bereitstellung des Pakets sicher, dass für den Remotearbeitsbereich Arbeitsbereichsdateien aktiviert wurden. Weitere Informationen finden Sie unter Was sind Arbeitsbereichsdateien?.

Um ein Bundle in einem Remotearbeitsbereich bereitzustellen, führen Sie den bundle deploy Befehl aus dem Bundlestamm aus, wie in Bereitstellen eines Bundles beschrieben. Die Databricks CLI stellt den Zielarbeitsbereich bereit, der in den Bundlekonfigurationsdateien deklariert wird. Siehe Ziele.

databricks bundle deploy

Die eindeutige Identität eines Bundles wird durch den Namen, das Ziel und die Identität des Deployers definiert. Wenn diese Attribute in verschiedenen Bundles identisch sind, beeinträchtigt die Bereitstellung dieser Bundle einander. Weitere Details finden Sie unter Bereitstellen eines Bundles.

Tipp

Sie können databricks bundle-Befehle außerhalb des Paketstamms ausführen, indem Sie die BUNDLE_ROOT-Umgebungsvariable festlegen. Wenn diese Umgebungsvariable nicht festgelegt ist, versuchen databricks bundle-Befehle, den Bündelstamm zu finden, indem sie im aktuellen Arbeitsverzeichnis suchen.

Schritt 5: Ausführen des Bundles

Um einen bestimmten Auftrag oder eine bestimmte Pipeline auszuführen, führen Sie den bundle run Befehl aus dem Bundlestamm aus, und geben Sie den Auftrag oder den Pipelineschlüssel an, der in den Bundlekonfigurationsdateien deklariert ist, wie unter Ausführen eines Auftrags oder einer Pipeline beschrieben. Der Ressourcenschlüssel ist das Element der obersten Ebene des YAML-Blocks der Ressource. Wenn Sie keinen Auftrag oder Pipelineschlüssel angeben, werden Sie aufgefordert, eine Ressource auszuwählen, die aus einer Liste der verfügbaren Ressourcen ausgeführt werden soll. Wenn die Option -t nicht angegeben ist, wird das in den Bündelkonfigurationsdateien deklarierte Standardziel verwendet. So führen Sie beispielsweise einen Auftrag mit dem Schlüssel „hello_job“ im Kontext des Standardziels aus:

databricks bundle run hello_job

So führen Sie einen Auftrag mit einem Schlüssel „hello_job“ im Kontext eines Ziels aus, das mit dem Namen „dev“ deklariert wurde:

databricks bundle run -t dev hello_job

Schritt 6: Zerstören des Bündels

Warnung

Durch das Löschen eines Bündels werden die zuvor bereitgestellten Aufträge, Pipelines und Artefakte eines Bundles endgültig gelöscht. Diese Aktion kann nicht rückgängig gemacht werden.

Wenn Sie mit dem Bundle fertig sind und Aufträge, Pipelines und Artefakte löschen möchten, die zuvor bereitgestellt wurden, führen Sie den bundle destroy-Befehl aus dem Bundlestamm aus. Dieser Befehl löscht alle zuvor bereitgestellten Aufträge, Pipelines und Artefakte, die in den Bündelkonfigurationsdateien definiert sind. Siehe Zerstören eines Bündels.

databricks bundle destroy

Standardmäßig werden Sie aufgefordert, das dauerhafte Löschen der zuvor bereitgestellten Aufträge, Pipelines und Artefakte zu bestätigen. Um diese Eingabeaufforderungen zu überspringen und automatisch dauerhaft zu löschen, fügen Sie dem --auto-approve-Befehl die Option bundle destroy hinzu.