Erstellen Ihres ersten Workflows mit einem Azure Databricks-Auftrag
In diesem Artikel wird ein Azure Databricks-Auftrag veranschaulicht, der Aufgaben zum Lesen und Verarbeiten eines Beispieldatasets orchestriert. In dieser Schnellstartanleitung führen Sie die folgenden Schritte aus:
- Erstellen eines neuen Notebooks und Hinzufügen von Code, um ein Beispieldataset mit beliebten Namen nach Jahr abzurufen
- Speichern Sie das Beispieldataset in Unity Catalog.
- Erstellen Sie ein neues Notebook, und fügen Sie Code hinzu, um das Dataset aus Unity Catalog zu lesen, nach Jahr zu filtern und die Ergebnisse anzuzeigen.
- Erstellen eines neuen Auftrags und Konfigurieren von zwei Aufgaben mithilfe der Notebooks
- Ausführen des Auftrags und Anzeigen der Ergebnisse
Anforderungen
Wenn Ihr Arbeitsbereich für Unity Catalog aktiviert ist und auch serverlose Aufträge aktiviert sind, wird der Auftrag standardmäßig mit serverlosem Computing ausgeführt. Sie benötigen keine Berechtigung für die Clustererstellung, um Ihren Auftrag mit serverlosem Computing auszuführen.
Andernfalls benötigen Sie die Berechtigung für das Erstellen von Clusters oder Berechtigungen für universelle Computeressourcen.
Sie benötigen ein Volume in Unity Catalog. In diesem Artikel wird ein Volume mit dem Namen my-volume
in einem Schema mit dem Namen default
in einem Katalog namens main
verwendet. Außerdem müssen Sie über die folgenden Berechtigungen in Unity Catalog verfügen:
READ VOLUME
undWRITE VOLUME
oderALL PRIVILEGES
, für das Volumemy-volume
USE SCHEMA
oderALL PRIVILEGES
für das Schemadefault
USE CATALOG
oderALL PRIVILEGES
für den Katalogmain
Wenden Sie sich zum Festlegen dieser Berechtigungen an Ihre Databricks-Administratoren/-Administratorinnen, oder lesen Sie den Artikel Unity Catalog-Berechtigungen und sicherungsfähige Objekte, um mehr zu erfahren.
Erstellen der Notebooks
Abrufen und Speichern von Daten
So erstellen Sie ein Notebook zum Abrufen des Beispieldatasets und speichern es in Unity Catalog
Wechseln Sie zur Azure Databricks-Startseite, klicken Sie auf der Seitenleiste auf Neu, und wählen Sie Notebook aus. Databricks erstellt und öffnet ein neues, leeres Notizbuch in Ihrem Standardordner. Die Standardsprache ist die Sprache, die Sie zuletzt verwendet haben, und das Notebook wird automatisch an die Compute-Ressource angefügt, die Sie zuletzt verwendet haben.
Kopieren Sie den folgenden Python-Code, und fügen Sie ihn in die erste Zelle des Notebooks ein.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Lesen und Anzeigen gefilterter Daten
So erstellen Sie ein Notebook zum Lesen und Darstellen der Daten zum Filtern:
Wechseln Sie zur Azure Databricks-Startseite, klicken Sie auf der Seitenleiste auf Neu, und wählen Sie Notebook aus. Databricks erstellt und öffnet ein neues, leeres Notizbuch in Ihrem Standardordner. Die Standardsprache ist die Sprache, die Sie zuletzt verwendet haben, und das Notebook wird automatisch an die Compute-Ressource angefügt, die Sie zuletzt verwendet haben.
Kopieren Sie den folgenden Python-Code, und fügen Sie ihn in die erste Zelle des Notebooks ein.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Erstellen eines Auftrags
Klicken Sie in der Randleiste auf Workflows.
Klicken Sie auf die .
Die Registerkarte Aufgaben wird mit dem Dialogfeld „Aufgabe erstellen“ angezeigt.
Ersetzen Sie Add a name for your job… (Namen für Ihren Auftrag hinzufügen...) mit dem Namen für den Auftrag.
Geben Sie im Feld Aufgabenname einen Namen für die Aufgabe ein. z. B. retrieve-baby-names.
Wählen Sie im Dropdownmenü Typ Notebook aus.
Verwenden Sie den Dateibrowser, um das erste Notebook zu suchen, das Sie erstellt haben. Klicken Sie auf den Namen des Notebooks und dann auf Bestätigen.
Klicken Sie auf Aufgabe erstellen.
Klicken Sie unter der Aufgabe, die Sie gerade erstellt haben, auf , um eine weitere Aufgabe hinzuzufügen.
Geben Sie im Feld Aufgabenname einen Namen für die Aufgabe ein. z. B. filter-baby-names.
Wählen Sie im Dropdownmenü Typ Notebook aus.
Verwenden Sie den Dateibrowser, um das zweite Notebook zu suchen, das Sie erstellt haben. Klicken Sie auf den Namen des Notebooks und dann auf Bestätigen.
Klicken Sie unter Parameter auf Hinzufügen. Geben Sie im Feld Schlüssel
year
ein. Geben Sie im Feld Wert2014
ein.Klicken Sie auf Aufgabe erstellen.
Ausführung des Auftrags.
Um den Auftrag sofort auszuführen, klicken Sie oben rechts auf . Sie können den Auftrag auch ausführen, indem Sie auf die Registerkarte Ausführungen klicken und in der Tabelle Aktive Ausführungen auf Jetzt ausführen klicken.
Anzeigen von Ausführungsdetails
Klicken Sie auf die Registerkarte Ausführungen und dann auf die Aktiven Ausführungen-Tabelle in der Abgeschlossene Ausführungen (letzte 60 Tage)-Tabelle.
Klicken Sie auf eine Aufgabe, um die Ausgabe und die Details anzuzeigen. Klicken Sie z. B. auf die Aufgabe filter-baby-names, um die Ausgabe und Ausführungsdetails für die Filteraufgabe anzuzeigen:
Ausführung mit anderen Parametern
So führen Sie den Auftrag erneut aus und filtern Babynamen für ein anderes Jahr:
- Klicken Sie auf neben Jetzt ausführen, und wählen Sie Jetzt mit anderen Parametern ausführen, oder klicken Sie in der Tabelle Aktive Ausführungen auf Jetzt mit anderen Parametern ausführen.
- Geben Sie im Feld Wert
2015
ein. - Klicken Sie auf Ausführen.