Vytvoření prvního pracovního postupu pomocí úlohy Azure Databricks
Tento článek ukazuje úlohu Azure Databricks, která orchestruje úlohy pro čtení a zpracování ukázkové datové sady. V tomto rychlém startu:
- Vytvořte nový poznámkový blok a přidejte kód pro načtení ukázkové datové sady obsahující oblíbené názvy dětí podle roku.
- Uložte ukázkovou datovou sadu do katalogu Unity.
- Vytvořte nový poznámkový blok a přidejte kód pro čtení datové sady z katalogu Unity, vyfiltrujte ho podle roku a zobrazte výsledky.
- Vytvořte novou úlohu a pomocí poznámkových bloků nakonfigurujte dva úkoly.
- Spusťte úlohu a zobrazte výsledky.
Požadavky
Pokud je váš pracovní prostor s povoleným katalogem Unity a bezserverové úlohy je ve výchozím nastavení povolená, úloha se spustí na bezserverových výpočetních prostředcích. Ke spuštění úlohy s bezserverovým výpočetním prostředím nepotřebujete oprávnění k vytvoření clusteru.
V opačném případě musíte mít oprávnění k vytvoření výpočetních prostředků úloh nebo oprávnění k výpočetním prostředkům pro všechny účely.
V katalogu Unity musíte mít svazek. Tento článek používá svazek pojmenovaný my-volume
ve schématu pojmenovaném default
v katalogu s názvem main
. V katalogu Unity musíte mít také následující oprávnění:
READ VOLUME
aWRITE VOLUME
, neboALL PRIVILEGES
, promy-volume
svazek.USE SCHEMA
neboALL PRIVILEGES
prodefault
schéma.USE CATALOG
neboALL PRIVILEGES
promain
katalog.
Pokud chcete tato oprávnění nastavit, podívejte se na správce Databricks nebo na oprávnění katalogu Unity a zabezpečitelné objekty.
Vytvoření poznámkových bloků
Načtení a uložení dat
Vytvoření poznámkového bloku pro načtení ukázkové datové sady a jeho uložení do katalogu Unity:
Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nový a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.
V případě potřeby změňte výchozí jazyk na Python.
Zkopírujte následující kód Pythonu a vložte ho do první buňky poznámkového bloku.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Čtení a zobrazení filtrovaných dat
Vytvoření poznámkového bloku pro čtení a prezentaci dat pro filtrování:
Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nový a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.
V případě potřeby změňte výchozí jazyk na Python.
Zkopírujte následující kód Pythonu a vložte ho do první buňky poznámkového bloku.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Vytvoření úlohy
Na bočním panelu klikněte na Pracovní postupy.
Klikněte na .
Karta Úkoly se zobrazí v dialogovém okně vytvořit úkol.
Nahraďte název vaší úlohy... názvem vaší úlohy.
Do pole Název úkolu zadejte název úkolu, například načíst jména dětí.
V rozevírací nabídce Typ vyberte Poznámkový blok.
Pomocí prohlížeče souborů vyhledejte první poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.
Klikněte na Vytvořit úkol.
Kliknutím pod úkol, který jste právě vytvořili, přidejte další úkol.
Do pole Název úkolu zadejte název úkolu, například názvy filtru pro dítě.
V rozevírací nabídce Typ vyberte Poznámkový blok.
V prohlížeči souborů vyhledejte druhý poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.
Klikněte na Přidat v části Parametry. Do pole Klíč zadejte
year
. Do pole Hodnota zadejte2014
.Klikněte na Vytvořit úkol.
Spuštění úlohy
Pokud chcete úlohu spustit okamžitě, klikněte v pravém horním rohu. Úlohu můžete spustit také kliknutím na kartu Spuštění a kliknutím na Spustit nyní v tabulce Aktivní spuštění .
Zobrazení podrobností o spuštění
Klikněte na kartu Spuštění a klikněte na odkaz pro spuštění v tabulce Aktivní spuštění nebo v tabulce Dokončená spuštění (posledních 60 dnů).
Kliknutím na některý z úkolů zobrazíte výstup a podrobnosti. Klikněte například na úlohu filtru-baby-names , abyste zobrazili výstup a spustili podrobnosti pro úlohu filtru:
Spuštění s různými parametry
Opětovné spuštění úlohy a filtrování jmen dětí pro jiný rok:
- Klikněte vedle možnosti Spustit a vyberte Spustit s různými parametry nebo v tabulce Aktivní spuštění klikněte na Spustit s různými parametry.
- Do pole Hodnota zadejte
2015
. - Klepněte na položku Spustit.