Uw eerste werkstroom maken met een Azure Databricks-taak

Artikel
07/17/2024

In dit artikel wordt een Azure Databricks-taak gedemonstreert waarmee taken worden ingedeeld om een voorbeeldgegevensset te lezen en te verwerken. In deze snelstart, gaat u het volgende doen:

Maak een nieuw notebook en voeg code toe om een voorbeeldgegevensset met populaire babynamen per jaar op te halen.
Sla de voorbeeldgegevensset op in Unity Catalog.
Maak een nieuw notebook en voeg code toe om de gegevensset te lezen uit Unity Catalog, deze te filteren op jaar en de resultaten weer te geven.
Maak een nieuwe taak en configureer twee taken met behulp van de notebooks.
Voer de taak uit en bekijk de resultaten.

Vereisten

Als uw werkruimte is ingeschakeld voor Unity Catalog en serverloze werkstromen is ingeschakeld, wordt de taak standaard uitgevoerd op serverloze berekeningen. U hebt geen machtiging voor het maken van clusters nodig om uw taak uit te voeren met serverloze compute.

Anders moet u de machtiging voor het maken van clusters hebben om taakresources of machtigingen voor rekenresources voor alle doeleinden te maken.

U moet een volume hebben in Unity Catalog. In dit artikel wordt een volume met de naam my-volume gebruikt in een schema met default de naam mainin een catalogus. U moet ook beschikken over de volgende machtigingen in Unity Catalog:

READ VOLUME en WRITE VOLUME, of ALL PRIVILEGES, voor het my-volume volume.
USE SCHEMA of ALL PRIVILEGES voor het default schema.
USE CATALOG of ALL PRIVILEGES voor de main catalogus.

Als u deze machtigingen wilt instellen, raadpleegt u uw Databricks-beheerder of Unity Catalog-bevoegdheden en beveiligbare objecten.

De notebooks maken

Gegevens ophalen en opslaan

Een notebook maken om de voorbeeldgegevensset op te halen en op te slaan in Unity Catalog:

Ga naar de landingspagina van Azure Databricks en klik op Nieuw in de zijbalk en selecteer Notebook. Databricks maakt en opent een nieuw, leeg notitieblok in uw standaardmap. De standaardtaal is de taal die u het laatst hebt gebruikt en het notebook wordt automatisch gekoppeld aan de rekenresource die u het laatst hebt gebruikt.
Wijzig indien nodig de standaardtaal in Python.

Kopieer de volgende Python-code en plak deze in de eerste cel van het notebook.

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

Gefilterde gegevens lezen en weergeven

Een notebook maken om de gegevens te lezen en te presenteren voor filteren:

Ga naar de landingspagina van Azure Databricks en klik op Nieuw in de zijbalk en selecteer Notebook. Databricks maakt en opent een nieuw, leeg notitieblok in uw standaardmap. De standaardtaal is de taal die u het laatst hebt gebruikt en het notebook wordt automatisch gekoppeld aan de rekenresource die u het laatst hebt gebruikt.
Wijzig indien nodig de standaardtaal in Python.

Kopieer de volgende Python-code en plak deze in de eerste cel van het notebook.

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))

Een taak maken

Klik op Werkstromen in de zijbalk.
Klik op .

Het tabblad Taken wordt weergegeven met het dialoogvenster Taak maken.
Vervang Een naam voor uw taak toevoegen... door uw taaknaam.
Voer in het veld Taaknaam een naam in voor de taak, bijvoorbeeld retrieve-baby-names.
Selecteer Notitieblok in het vervolgkeuzemenu Type.
Gebruik de bestandsbrowser om het eerste notitieblok te zoeken dat u hebt gemaakt, klik op de naam van het notitieblok en klik op Bevestigen.
Klik op Taak maken.
Klik onder de taak die u zojuist hebt gemaakt om een andere taak toe te voegen.
Voer in het veld Taaknaam een naam in voor de taak, bijvoorbeeld filter-baby-namen.
Selecteer Notitieblok in het vervolgkeuzemenu Type.
Gebruik de bestandsbrowser om het tweede notitieblok te vinden dat u hebt gemaakt, klik op de naam van het notitieblok en klik op Bevestigen.
Klik onder Parameters op Toevoegen. Voer in het veld Sleutel de waarde in year. Voer in het veld Waarde 2014 in.
Klik op Taak maken.

De taak uitvoeren

Als u de taak direct wilt uitvoeren, klikt u in de rechterbovenhoek. U kunt de taak ook uitvoeren door op het tabblad Uitvoeringen te klikken en op Nu uitvoeren in de tabel Actieve uitvoeringen te klikken.

Uitvoeringsdetails weergeven

Klik op het tabblad Runs en klik op de koppeling voor de uitvoering in de tabel Actieve uitvoeringen of in de tabel Voltooide uitvoeringen (afgelopen 60 dagen).
Klik op een van beide taken om de uitvoer en details weer te geven. Klik bijvoorbeeld op de taak filter-baby-names om de uitvoer weer te geven en details voor de filtertaak uit te voeren:

Uitvoeren met verschillende parameters

Voer de taak opnieuw uit en filter babynamen voor een ander jaar:

Klik naast Nu uitvoeren en selecteer Nu uitvoeren met verschillende parameters of klik op Nu uitvoeren met verschillende parameters in de tabel Actieve uitvoeringen.
Voer in het veld Waarde 2015 in.
Klik op Uitvoeren .

Delen via