Vytvoření prvního pracovního postupu pomocí úlohy Azure Databricks
Článek
Tento článek ukazuje úlohu Azure Databricks, která orchestruje úlohy pro čtení a zpracování ukázkové datové sady. V tomto rychlém startu:
Vytvořte nový poznámkový blok a přidejte kód pro načtení ukázkové datové sady obsahující oblíbené názvy dětí podle roku.
Uložte ukázkovou datovou sadu do katalogu Unity.
Vytvořte nový poznámkový blok a přidejte kód pro čtení datové sady z katalogu Unity, vyfiltrujte ho podle roku a zobrazte výsledky.
Vytvořte novou úlohu a pomocí poznámkových bloků nakonfigurujte dva úkoly.
Spusťte úlohu a zobrazte výsledky.
Požadavky
Pokud je váš pracovní prostor s povoleným katalogem Unity a bezserverové úlohy je ve výchozím nastavení povolená, úloha běží na bezserverových výpočetních prostředcích. Ke spuštění úlohy s bezserverovým výpočetním prostředím nepotřebujete oprávnění k vytvoření clusteru.
V opačném případě musíte mít oprávnění k vytvoření výpočetních prostředků úloh nebo oprávnění k výpočetním prostředkům pro všechny účely.
V katalogu Unity musíte mít svazku . Tento článek používá svazek s názvem my-volume ve schématu s názvem default v katalogu s názvem main. V katalogu Unity musíte mít také následující oprávnění:
READ VOLUME a WRITE VOLUME, nebo ALL PRIVILEGES, pro my-volume svazek.
USE SCHEMA nebo ALL PRIVILEGES pro schéma default.
Vytvoření poznámkového bloku pro načtení ukázkové datové sady a jeho uložení do katalogu Unity:
Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nová a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.
Vytvoření poznámkového bloku pro čtení a prezentaci dat pro filtrování:
Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nová a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.
Zkopírujte následující kód Pythonu a vložte ho do první buňky poznámkového bloku.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Vytvoření úlohy
Na bočním panelu klikněte na Pracovní postupy.
Klikněte na .
Karta Úkoly se zobrazí v dialogovém okně vytvořit úkol.
Nahraďte název vaší úlohy... názvem vaší úlohy.
Do pole Název úkolu zadejte název úkolu, například načíst jména dětí.
V rozbalovací nabídce Typ vyberte Notebook.
Pomocí prohlížeče souborů vyhledejte první poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.
Klikněte na Vytvořit úkol.
Kliknutím pod úkol, který jste právě vytvořili, přidejte další úkol.
Do pole Název úkolu zadejte název úkolu, například názvy filtru pro dítě.
V rozevírací nabídce Typ vyberte Notebook.
V prohlížeči souborů vyhledejte druhý poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.
Klikněte na Přidat pod Parametry.
Do pole Klíč zadejte year.
Do pole Hodnota zadejte 2014.
Klikněte na Vytvořit úkol.
Spuštění úlohy
Pokud chcete úlohu spustit okamžitě, klikněte v pravém horním rohu. Úlohu můžete spustit také kliknutím na kartu Spuštění a kliknutím na Spustit nyní v tabulce Aktivní Spuštění.
Zobrazení podrobností o spuštění
Klikněte na kartu Běhy a klikněte na odkaz pro běh v tabulce Aktivní běhy nebo v tabulce Dokončené běhy (posledních 60 dnů).
Kliknutím na některý z úkolů zobrazíte výstup a podrobnosti. Klikněte například na úlohu filtru-baby-names , abyste zobrazili výstup a spustili podrobnosti pro úlohu filtru:
Spusťte s různými parametry
Opětovné spuštění úlohy a filtrování jmen dětí pro jiný rok:
Klikněte na Blue Down Caret vedle Spustit nyní a vyberte Spustit nyní s různými parametry nebo klikněte na Spustit s různými parametry v tabulce Aktivní spuštění.