Implementieren von Datenverarbeitungs- und -analyseworkflows mit Jobs

Artikel
03/25/2024

Sie können einen Azure Databricks-Auftrag verwenden, um Ihre Datenverarbeitungs-, Maschinelles Lernen- oder Datenanalysepipelines im Databricks-Plattform zu orchestrieren. Azure Databricks Jobs unterstützt eine Reihe von Workloadtypen, einschließlich Notebooks, Skripts, Delta Live Tables-Pipelines, Databricks SQL-Abfragen und dbt-Projekte. Die folgenden Artikel führen Sie durch die Verwendung der auf der Azure Databricks Jobs verfügbaren Features und Optionen zur Implementierung Ihrer Datenpipelines.

Transformieren, Analysieren und Visualisieren Ihrer Daten mit einem Azure Databricks-Auftrag

Sie können einen Auftrag verwenden, um eine Datenpipeline zu erstellen, die Daten erfasst, transformiert, analysiert und visualisiert. Das Beispiel in Verwenden von Databricks SQL in einem Azure Databricks-Auftrag erstellt eine Pipeline, die:

ein Python-Skript zum Abrufen von Daten mithilfe einer REST-API verwendet.
Delta Live Tables verwendet, um die abgerufenen Daten zu erfassen und zu transformieren und die transformierten Daten in Delta Lake zu speichern.
die Auftragsintegration in Databricks SQL verwendet, um die transformierten Daten zu analysieren und Diagramme zu erstellen, um die Ergebnisse zu visualisieren.

Verwenden der dbt-Transformationen in einem Auftrag

Verwenden Sie den Vorgangstyp dbt, wenn Sie die Datentransformation mit einem dbt-Kernprojekt durchführen und dieses Projekt in einen Azure Databricks-Auftrag integrieren möchten, oder Sie neue dbt-Transformationen erstellen und diese Transformationen in einem Auftrag ausführen möchten. Weitere Informationen finden Sie unter Verwenden von dbt-Transformationen in einem Azure Databricks-Auftrag.

Verwenden eines Python-Pakets in einem Auftrag

Python-Wheel-Dateien sind eine Standardmethode zum Packen und Verteilen der Dateien, die zur Ausführung einer Python-Anwendung erforderlich sind. Sie können mithilfe des Aufgabentyps Python wheel ganz einfach einen Auftrag erstellen, der als Python-Wheel-Datei gepackten Python-Code verwendet. Weitere Informationen finden Sie unter Verwenden einer Python-Wheel-Datei in einem Azure Databricks-Auftrag.

Verwenden von in einem JAR gepackten Code

Bibliotheken und Anwendungen, die in einer JVM-Sprache wie Java und Scala implementiert werden, werden häufig in einer Java-Archivdatei (JAR) gepackt. Azure Databricks Jobs unterstützt Code, der mithilfe des Aufgabentyps JAR in eine JAR-Datei gepackt ist. Weitere Informationen finden Sie unter Verwenden einer JAR-Datei in einem Azure Databricks-Auftrag.

Verwenden von Notebooks oder Python-Code, die in einem zentralen Repository verwaltet werden

Eine gängige Möglichkeit zum Verwalten der Versionssteuerung und Zusammenarbeit für Produktionsartefakte besteht darin, ein zentrales Repository wie GitHub zu verwenden. Azure Databricks Jobs unterstützt das Erstellen und Ausführen von Aufträgen mithilfe von aus einem Repository importierten Notebooks oder Python-Code, einschließlich GitHub oder Databricks Git-Ordner. Weitere Informationen finden Sie unter Verwenden von versionskontrolliertem Quellcode in einem Azure Databricks-Auftrag.

Orchestrieren Ihrer Aufträgen mit Apache Airflow

Databricks empfiehlt die Verwendung von Azure Databricks Jobs, um Ihre Workflows zu orchestrieren. Apache Airflow wird jedoch häufig als Workflow-Orchestrierungssystem verwendet und bietet native Unterstützung für Azure Databricks Jobs. Während Azure Databricks Jobs eine visuelle Benutzeroberfläche zum Erstellen Ihrer Workflows bereitstellt, verwendet Airflow Python-Dateien zum Definieren und Bereitstellen Ihrer Datenpipelines. Ein Beispiel zum Erstellen und Ausführen eines Auftrags mit Airflow finden Sie unter Orchestrieren von Azure Databricks-Aufträgen mit Apache Airflow.

Ausführen eines Auftrags mithilfe eines Dienstprinzipals

Sie können Ihre Aufträge als Dienstkonto ausführen, indem Sie eine Microsoft Entra ID-Anwendung (früher Azure Active Directory) und einen Dienstprinzipal verwenden. Wenn Sie einen Auftrag als Dienstkonto anstelle eines individuellen Benutzers ausführen, können Sie den Zugriff auf den Auftrag steuern, sicherstellen, dass der Auftrag über die erforderlichen Berechtigungen verfügt, und Probleme verhindern, wenn ein Auftragsbesitzer aus einem Arbeitsbereich entfernt wird. Ein Tutorial zum Erstellen und Verwenden eines Dienstprinzipals zum Ausführen eines Azure Databricks-Auftrags finden Sie unter Ausführen eines Auftrags mit einem Microsoft Entra ID-Dienstprinzipal.

Freigeben über