Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto kurzu vytvoříte sadu prostředků Databricks úplně od začátku. Tato jednoduchá sada obsahuje dva poznámkové bloky a definici úlohy Azure Databricks pro spuštění těchto poznámkových bloků. Pak ověříte, nasadíte a spustíte úlohu v pracovním prostoru Azure Databricks. Tento postup automatizuje rychlý start s názvem Vytvoření prvního pracovního postupu pomocí úloh Lakeflow.
Požadavky
- Databricks CLI verze 0.218.0 nebo vyšší. Pokud chcete zkontrolovat nainstalovanou verzi rozhraní příkazového řádku Databricks, spusťte příkaz
databricks -v. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks. - Ověřování nakonfigurované pro rozhraní příkazového řádku Databricks Ověřování U2M je vhodné pro vyzkoušení těchto kroků v reálném čase. Viz Ověřování pro Databricks CLI.
- Vzdálený pracovní prostor Databricks musí mít povolené soubory pracovního prostoru. Podívejte se na Co jsou soubory pracovního prostoru?
Krok 1: Vytvoření sady
Sada obsahuje artefakty, které chcete nasadit, a nastavení pro prostředky, které chcete spustit.
- Vytvořte nebo identifikujte prázdný adresář na vývojovém počítači.
- Přepněte do prázdného adresáře v terminálu nebo ho otevřete v integrovaném vývojovém prostředí ( IDE).
Návod
Můžete také použít adresář obsahující úložiště naklonované od poskytovatele Gitu. To vám umožní spravovat sadu s externí správou verzí a snadněji spolupracovat s dalšími vývojáři a odborníky v OBLASTI IT na vašem projektu.
Pokud se rozhodnete naklonovat úložiště pro tuto ukázku, Databricks doporučuje, aby úložiště bylo prázdné nebo obsahuje pouze základní soubory, například README a .gitignore. Jinak se všechny existující soubory v úložišti můžou zbytečně synchronizovat s pracovním prostorem Azure Databricks.
Krok 2: Přidání poznámkových bloků do projektu
V tomto kroku přidáte do projektu dva poznámkové bloky. První poznámkový blok získá seznam trendujících jmen dětí od roku 2007 z veřejných datových zdrojů ministerstva zdravotnictví státu New York. Viz Jména dětí: Trendy podle jména: Od roku 2007 na webových stránkách oddělení. První poznámkový blok pak uloží tato data do svazku Azure Databricks Unity Catalog pojmenovaného my-volume ve schématu default v katalogu nazvaném main. Druhý poznámkový blok se dotazuje na uložená data a zobrazí agregované počty jmen dítěte podle křestního jména a pohlaví pro 2014.
V kořenovém adresáři vytvořte první poznámkový blok s názvem
retrieve-baby-names.py.Do souboru
retrieve-baby-names.pypřidejte následující kód:# Databricks notebook source import requests response = requests.get('http://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)Ve stejném adresáři vytvořte druhý poznámkový blok s názvem soubor s názvem
filter-baby-names.py.Do souboru
filter-baby-names.pypřidejte následující kód:# Databricks notebook source babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Krok 3: Přidání souboru schématu konfigurace sady do projektu
Pokud používáte integrované vývojové prostředí (IDE), jako je Visual Studio Code, PyCharm Professional nebo IntelliJ IDEA Ultimate, které podporuje soubory YAML a soubory schématu JSON, můžete pomocí integrovaného vývojového prostředí (IDE) nejen vytvořit soubor schématu konfigurace sady prostředků, ale zkontrolovat syntaxi a formátování konfiguračního souboru balíčku projektu.
Visual Studio Code
Přidejte podporu jazykového serveru YAML do editoru Visual Studio Code, například instalací rozšíření YAML z webu Visual Studio Code Marketplace.
Vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks pomocí rozhraní příkazového řádku Databricks a spusťte
bundle schemapříkaz a přesměrujte výstup do souboru JSON. Například vygenerujte soubor pojmenovanýbundle_config_schema.jsonv aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.jsonV kroku 4 přidáte následující komentář na začátek konfiguračního souboru sady, který přidruží konfigurační soubor sady k zadanému souboru schématu JSON:
# yaml-language-server: $schema=bundle_config_schema.jsonPoznámka:
Pokud je ve vašem předchozím komentáři soubor schématu JSON pro konfiguraci balíčku Databricks umístěn v jiné cestě, nahraďte
bundle_config_schema.jsonúplnou cestou k souboru schématu.
PyCharm Professional
Vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks pomocí rozhraní příkazového řádku Databricks a spusťte
bundle schemapříkaz a přesměrujte výstup do souboru JSON. Například vygenerujte soubor pojmenovanýbundle_config_schema.jsonv aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.jsonNakonfigurujte PyCharm tak, aby rozpoznal soubor s konfiguračním schématem JSON pro sady, a poté dokončete mapování schématu JSON podle pokynů v Konfigurace vlastního schématu JSON.
V kroku 4 použijete PyCharm k vytvoření nebo otevření konfiguračního souboru sady. Podle konvence má tento soubor název
databricks.yml.
IntelliJ IDEA Ultimate
Vygenerujte konfigurační soubor schématu JSON sady prostředků Databricks pomocí rozhraní příkazového řádku Databricks a spusťte
bundle schemapříkaz a přesměrujte výstup do souboru JSON. Například vygenerujte soubor pojmenovanýbundle_config_schema.jsonv aktuálním adresáři následujícím způsobem:databricks bundle schema > bundle_config_schema.jsonNakonfigurujte IntelliJ IDEA tak, aby rozpoznala konfigurační soubor schématu JSON, a poté dokončete mapování tohoto schématu JSON podle pokynů v části Konfigurace vlastního schématu JSON.
V kroku 4 použijete IntelliJ IDEA k vytvoření nebo otevření konfiguračního souboru sady. Podle konvence má tento soubor název
databricks.yml.
Krok 4: Přidání konfiguračního souboru sady do projektu
V tomto kroku definujete, jak tyto dva poznámkové bloky nasadit a spustit. Pro tuto ukázku chcete použít úlohu Azure Databricks ke spuštění prvního poznámkového bloku a potom druhého poznámkového bloku. Protože první poznámkový blok ukládá data a druhý poznámkový blok se dotazuje na uložená data, chcete, aby první poznámkový blok byl dokončen před spuštěním druhého poznámkového bloku. Tyto cíle modelujete v konfiguračním souboru sady v projektu.
- V kořenovém adresáři vytvořte konfigurační soubor sady s názvem
databricks.yml. - Do souboru
databricks.ymlpřidejte následující kód a nahraďte<workspace-url>vaší adresou URL pro pracovní prostor, například . Tato adresa URL se musí shodovat s adresou URL v.databrickscfgsouboru:
Návod
První řádek, počínaje # yaml-language-server, je vyžadován pouze v případě, že vaše integrované vývojové prostředí (IDE) ho podporuje. Podrobnosti najdete v kroku 3 výše.
# yaml-language-server: $schema=bundle_config_schema.json
bundle:
name: baby-names
resources:
jobs:
retrieve-filter-baby-names-job:
name: retrieve-filter-baby-names-job
job_clusters:
- job_cluster_key: common-cluster
new_cluster:
spark_version: 12.2.x-scala2.12
node_type_id: Standard_DS3_v2
num_workers: 1
tasks:
- task_key: retrieve-baby-names-task
job_cluster_key: common-cluster
notebook_task:
notebook_path: ./retrieve-baby-names.py
- task_key: filter-baby-names-task
depends_on:
- task_key: retrieve-baby-names-task
job_cluster_key: common-cluster
notebook_task:
notebook_path: ./filter-baby-names.py
targets:
development:
workspace:
host: <workspace-url>
Pro přizpůsobení úloh mapování v deklaraci úlohy odpovídají nákladu požadavku vyjádřenému ve formátu YAML operace vytvoření úlohy, jak je uvedeno v POST /api/2.1/jobs/create v odkazu v dokumentaci REST API.
Návod
Nastavení nových clusterů úloh v balíčcích můžete definovat; kombinovat a přepsat pomocí technik popsaných v části Přepsání pomocí cílových nastavení.
Krok 5: Ověření konfiguračního souboru sady projektu
V tomto kroku zkontrolujete, jestli je konfigurace sady platná.
Pomocí rozhraní příkazového řádku Databricks spusťte
bundle validatepříkaz následujícím způsobem:databricks bundle validatePokud se vrátí souhrn konfigurace sady, ověření proběhlo úspěšně. Pokud se vrátí nějaké chyby, opravte chyby a opakujte tento krok.
Pokud po tomto kroku provedete nějaké změny sady, měli byste tento krok zopakovat a zkontrolovat, jestli je konfigurace sady stále platná.
Krok 6: Nasazení místního projektu do vzdáleného pracovního prostoru
V tomto kroku nasadíte dva místní poznámkové bloky do vzdáleného pracovního prostoru Azure Databricks a vytvoříte úlohu Azure Databricks ve vašem pracovním prostoru.
Pomocí rozhraní příkazového řádku Databricks spusťte
bundle deploypříkaz následujícím způsobem:databricks bundle deploy -t developmentZkontrolujte, jestli byly nasazeny dva místní poznámkové bloky: Na bočním panelu pracovního prostoru Azure Databricks klikněte na Pracovní prostor.
Klikněte do složky Users >
<your-username>> .bundle > baby-names > development > files. Tyto dva poznámkové bloky by měly být v této složce.Zkontrolujte, jestli se úloha vytvořila: Na bočním panelu pracovního prostoru Azure Databricks klikněte na Úlohy a kanály.
Volitelně můžete vybrat filtry Práce a Vlastním.
Klikněte na retrieve-filter-baby-names-job.
Klikněte na kartu Úkoly . Měly by existovat dva úkoly: načtení jmen dětí a filtrování názvů dětí – úkol.
Pokud po tomto kroku provedete nějaké změny v sadě, měli byste zopakovat kroky 6 až 7, abyste zkontrolovali, jestli je konfigurace sady stále platná, a pak projekt znovu nasaďte.
Krok 7: Spuštění nasazeného projektu
V tomto kroku spustíte úlohu Azure Databricks ve svém pracovním prostoru.
Pomocí rozhraní příkazového řádku Databricks spusťte
bundle runpříkaz následujícím způsobem:databricks bundle run -t development retrieve-filter-baby-names-jobZkopírujte hodnotu
Run URL, která se zobrazí v terminálu, a vložte ji do webového prohlížeče, abyste otevřeli pracovní prostor Azure Databricks.Ve vašem pracovním prostoru Azure Databricks klikněte na úkol filter-baby-names-task po úspěšném dokončení dvou úkolů a zobrazení zelených pruhů záhlaví a zobrazte výsledky dotazu.
Pokud po tomto kroku provedete nějaké změny sady, měli byste zopakovat kroky 6 až 8 a zkontrolovat, jestli je konfigurace sady stále platná, znovu nasaďte projekt a spusťte znovu nasazený projekt.
Krok 8: Vyčištění
V tomto kroku odstraníte dva nasazené poznámkové bloky a úlohu z pracovního prostoru.
Pomocí rozhraní příkazového řádku Databricks spusťte
bundle destroypříkaz následujícím způsobem:databricks bundle destroyPotvrďte žádost o odstranění úlohy: Po zobrazení výzvy k trvalému zničení prostředků zadejte
ya stiskněteEnter.Potvrďte žádost o odstranění poznámkových bloků: Po zobrazení výzvy k trvalému zničení dříve nasazené složky a všech jejích souborů zadejte
ya stiskněteEnter.
Spuštěním příkazu odstraníte bundle destroy jenom nasazenou úlohu a složku obsahující dva nasazené poznámkové bloky. Tento příkaz neodstraní žádné vedlejší účinky, například babynames.csv soubor, který vytvořil první poznámkový blok. Pokud chcete soubor odstranit babybnames.csv , postupujte takto:
- Na bočním panelu pracovního prostoru Azure Databricks klikněte na Katalog.
- Klikněte na Procházet DBFS.
- Klikněte na složku FileStore .
- Klikněte na šipku rozevíracího seznamu vedle babynames.csv a klikněte na Odstranit.
- Pokud chcete také odstranit sadu z vývojového počítače, můžete teď odstranit místní adresář z kroku 1.