Vytvoření prvního pracovního postupu pomocí úlohy Azure Databricks

Tento článek ukazuje úlohu Azure Databricks, která orchestruje úlohy pro čtení a zpracování ukázkové datové sady. V tomto rychlém startu:

  1. Vytvořte nový poznámkový blok a přidejte kód pro načtení ukázkové datové sady obsahující oblíbené názvy dětí podle roku.
  2. Uložte ukázkovou datovou sadu do katalogu Unity.
  3. Vytvořte nový poznámkový blok a přidejte kód pro čtení datové sady z katalogu Unity, vyfiltrujte ho podle roku a zobrazte výsledky.
  4. Vytvořte novou úlohu a pomocí poznámkových bloků nakonfigurujte dva úkoly.
  5. Spusťte úlohu a zobrazte výsledky.

Požadavky

Pokud je váš pracovní prostor s povoleným katalogem Unity a bezserverové pracovní postupy je ve výchozím nastavení povolená, úloha běží na bezserverových výpočetních prostředcích . Ke spuštění úlohy s bezserverovým výpočetním prostředím nepotřebujete oprávnění k vytvoření clusteru.

V opačném případě musíte mít oprávnění k vytvoření výpočetních prostředků úloh nebo oprávnění k výpočetním prostředkům pro všechny účely.

V katalogu Unity musíte mít svazek. Tento článek používá svazek pojmenovaný my-volume ve schématu pojmenovaném default v katalogu s názvem main. V katalogu Unity musíte mít také následující oprávnění:

  • READ VOLUME a WRITE VOLUME, nebo ALL PRIVILEGES, pro my-volume svazek.
  • USE SCHEMA nebo ALL PRIVILEGES pro default schéma.
  • USE CATALOG nebo ALL PRIVILEGES pro main katalog.

Pokud chcete tato oprávnění nastavit, podívejte se na správce Databricks nebo na oprávnění katalogu Unity a zabezpečitelné objekty.

Vytvoření poznámkových bloků

Načtení a uložení dat

Vytvoření poznámkového bloku pro načtení ukázkové datové sady a jeho uložení do katalogu Unity:

  1. Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nová ikonaNový a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.

  2. V případě potřeby změňte výchozí jazyk na Python.

  3. Zkopírujte následující kód Pythonu a vložte ho do první buňky poznámkového bloku.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Čtení a zobrazení filtrovaných dat

Vytvoření poznámkového bloku pro čtení a prezentaci dat pro filtrování:

  1. Přejděte na cílovou stránku Azure Databricks a na bočním panelu klikněte na Nová ikonaNový a vyberte Poznámkový blok. Databricks vytvoří a otevře nový prázdný poznámkový blok ve vaší výchozí složce. Výchozím jazykem je jazyk, který jste naposledy použili, a poznámkový blok se automaticky připojí k výpočetnímu prostředku, který jste použili naposledy.

  2. V případě potřeby změňte výchozí jazyk na Python.

  3. Zkopírujte následující kód Pythonu a vložte ho do první buňky poznámkového bloku.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Vytvoření úlohy

  1. Na bočním panelu klikněte na Ikona ÚlohPracovní postupy.

  2. Klikněte na Tlačítko Vytvořit úlohu.

    Karta Úkoly se zobrazí v dialogovém okně vytvořit úkol.

    Dialogové okno Vytvořit první úkol

  3. Nahraďte název vaší úlohy... názvem vaší úlohy.

  4. Do pole Název úkolu zadejte název úkolu, například načíst jména dětí.

  5. V rozevírací nabídce Typ vyberte Poznámkový blok.

  6. Pomocí prohlížeče souborů vyhledejte první poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.

  7. Klikněte na Vytvořit úkol.

  8. Kliknutím pod Tlačítko Přidat úkol úkol, který jste právě vytvořili, přidejte další úkol.

  9. Do pole Název úkolu zadejte název úkolu, například názvy filtru pro dítě.

  10. V rozevírací nabídce Typ vyberte Poznámkový blok.

  11. V prohlížeči souborů vyhledejte druhý poznámkový blok, který jste vytvořili, klikněte na název poznámkového bloku a klikněte na Potvrdit.

  12. Klikněte na Přidat v části Parametry. Do pole Klíč zadejte year. Do pole Hodnota zadejte 2014.

  13. Klikněte na Vytvořit úkol.

Spuštění úlohy

Pokud chcete úlohu spustit okamžitě, klikněte Tlačítko Spustit nyní v pravém horním rohu. Úlohu můžete spustit také kliknutím na kartu Spuštění a kliknutím na Spustit nyní v tabulce Aktivní spuštění .

Zobrazení podrobností o spuštění

  1. Klikněte na kartu Spuštění a klikněte na odkaz pro spuštění v tabulce Aktivní spuštění nebo v tabulce Dokončená spuštění (posledních 60 dnů).

  2. Kliknutím na některý z úkolů zobrazíte výstup a podrobnosti. Klikněte například na úlohu filtru-baby-names , abyste zobrazili výstup a spustili podrobnosti pro úlohu filtru:

    Zobrazení výsledků názvů filtrů

Spuštění s různými parametry

Opětovné spuštění úlohy a filtrování jmen dětí pro jiný rok:

  1. Klikněte vedle Modrá stříška dolůmožnosti Spustit a vyberte Spustit s různými parametry nebo v tabulce Aktivní spuštění klikněte na Spustit s různými parametry.
  2. Do pole Hodnota zadejte 2015.
  3. Klepněte na položku Spustit.