Sdílet prostřednictvím


Úvod do pracovních postupů Azure Databricks

Pracovní postupy Azure Databricks orchestrují zpracování dat, strojové učení a analytické kanály na platformě Databricks Data Intelligence Platform. Pracovní postupy mají plně spravované služby orchestrace integrované s platformou Databricks, včetně úloh Azure Databricks pro spouštění neinteraktivního kódu v pracovním prostoru Azure Databricks a rozdílových živých tabulek pro vytváření spolehlivých a udržovatelných kanálů ETL.

Další informace o výhodách orchestrace pracovních postupů s platformou Databricks najdete v tématu Pracovní postupy Databricks.

Příklad pracovního postupu Azure Databricks

Následující diagram znázorňuje pracovní postup orchestrovaný úlohou Azure Databricks na:

  1. Spusťte kanál Delta Live Tables, který ingestuje nezpracovaná data clickstreamu z cloudového úložiště, vyčistí a připraví data, relační data a zachová konečnou sadu dat relace na Delta Lake.
  2. Spusťte kanál Delta Live Tables, který ingestuje data objednávky z cloudového úložiště, vyčistí a transformuje data pro zpracování a zachová konečnou sadu dat na Delta Lake.
  3. Připojte se k objednávkovým datům a datům clickstreamu relace a vytvořte novou sadu dat pro analýzu.
  4. Extrahujte z připravených dat funkce.
  5. Provádění úloh paralelně za účelem zachování funkcí a trénování modelu strojového učení

Diagram znázorňující ukázkový pracovní postup

Co jsou úlohy Azure Databricks?

Úloha Azure Databricks je způsob, jak spouštět aplikace pro zpracování a analýzu dat v pracovním prostoru Azure Databricks. Vaše úloha může sestávat z jednoho úkolu, nebo to může být rozsáhlý pracovní postup s více úkoly a složitými závislostmi. Azure Databricks spravuje orchestraci úloh, správu clusteru, monitorování a hlášení chyb pro všechny vaše úlohy. Úlohy můžete spouštět okamžitě, pravidelně prostřednictvím snadno použitelného systému plánování, kdykoli dorazí nové soubory do externího umístění nebo nepřetržitě, aby se zajistilo, že je instance úlohy vždy spuštěná. Úlohy můžete také spouštět interaktivně v uživatelském rozhraní poznámkového bloku.

Úlohu můžete vytvořit a spustit pomocí uživatelského rozhraní úloh, rozhraní příkazového řádku Databricks nebo vyvoláním rozhraní API úloh. Můžete opravit a znovu spustit neúspěšnou nebo zrušenou úlohu pomocí uživatelského rozhraní nebo rozhraní API. Výsledky spuštění úlohy můžete monitorovat pomocí uživatelského rozhraní, rozhraní příkazového řádku, rozhraní API a oznámení (například e-mail, cíl webhooku nebo oznámení Slack).

Další informace o používání rozhraní příkazového řádku Databricks najdete v tématu Co je rozhraní příkazového řádku Databricks? Další informace o používání rozhraní API pro úlohy najdete v rozhraní API úloh.

V následujících částech najdete důležité funkce úloh Azure Databricks.

Důležité

  • Pracovní prostor je omezený na 1 000 souběžných spuštění úloh. Když si vyžádáte spuštění, které nejde zahájit okamžitě, vrátí se odpověď 429 Too Many Requests.
  • Počet úloh, které může pracovní prostor vytvořit za hodinu, je omezený na 1 0000 (zahrnuje "spuštění odeslat"). Toto omezení platí také pro úlohy vytvořené pomocí rozhraní REST API a pracovních postupů poznámkových bloků.

Implementace zpracování a analýzy dat pomocí úloh

Pracovní postup zpracování a analýzy dat implementujete pomocí úloh. Úloha se skládá z jednoho nebo více úkolů. Můžete vytvářet úlohy úloh, které spouštějí poznámkové bloky, JARS, kanály Delta Live Tables nebo Python, Scala, Spark a aplikace Java. Úlohy můžou také orchestrovat dotazy, výstrahy a řídicí panely Databricks SQL k vytváření analýz a vizualizací nebo můžete pomocí úlohy dbt spouštět transformace dbt ve vašem pracovním postupu. Podporují se také starší verze aplikací Spark Submit.

Úkol můžete také přidat do úlohy, která spouští jinou úlohu. Tato funkce umožňuje rozdělit velký proces na několik menších úloh nebo vytvořit zobecněné moduly, které lze opakovaně používat více úlohami.

Pořadí provádění úkolů můžete řídit zadáním závislostí mezi úkoly. Můžete nakonfigurovat úlohy, které se mají spouštět v posloupnosti nebo paralelně.

Interaktivní spouštění úloh, nepřetržitě nebo pomocí triggerů úloh

Úlohy můžete spouštět interaktivně z uživatelského rozhraní úloh, rozhraní API nebo rozhraní příkazového řádku nebo můžete spustit průběžnou úlohu. Můžete vytvořit plán pro pravidelné spuštění úlohy nebo spuštění úlohy při příchodu nových souborů do externího umístění, jako je Amazon S3, úložiště Azure nebo úložiště Google Cloud.

Monitorování průběhu úlohy s oznámeními

Oznámení můžete dostávat, když se úloha nebo úkol spustí, dokončí nebo selže. Oznámení můžete posílat na jednu nebo více e-mailových adres nebo cílů systému (například cíle webhooku nebo Slack). Viz Přidání e-mailových a systémových oznámení pro události úloh.

Monitorování nákladů na úlohy a aktivity pomocí systémových tabulek

Systémové tabulky obsahují workflow schéma, ve kterém můžete zobrazit záznamy související s aktivitou úlohy ve vašem účtu. Viz Referenční informace k systémové tabulce úloh.

Systémové tabulky úloh můžete také spojit s fakturačními tabulkami, abyste mohli monitorovat náklady na úlohy napříč vaším účtem. Viz Monitorování nákladů na úlohy pomocí systémových tabulek.

Spouštění úloh pomocí výpočetních prostředků Azure Databricks

Clustery Databricks a SQL Warehouse poskytují výpočetní prostředky pro vaše úlohy. Úlohy můžete spouštět pomocí clusteru úloh, clusteru pro všechny účely nebo SQL Warehouse:

  • Cluster úloh je vyhrazený cluster pro vaši úlohu nebo jednotlivé úlohy úloh. Vaše úloha může použít cluster úloh, který sdílí všechny úkoly, nebo můžete nakonfigurovat cluster pro jednotlivé úkoly při vytváření nebo úpravě úkolu. Cluster úloh se vytvoří, když se úloha nebo úloha spustí a ukončí, když úloha nebo úkol skončí.
  • Univerzální cluster je sdílený cluster, který se spouští a ukončuje ručně a je možné ho sdílet více uživateli a úlohami.

K optimalizaci využití prostředků doporučuje Databricks pro vaše úlohy použít cluster úloh. Pokud chcete zkrátit dobu strávenou čekáním na spuštění clusteru, zvažte použití celoúčelového clusteru. Viz Použití výpočetních prostředků Azure Databricks s úlohami.

Pomocí SQL Warehouse můžete spouštět úlohy SQL Databricks, jako jsou dotazy, řídicí panely nebo výstrahy. Pomocí SQL Warehouse můžete také spouštět transformace dbt pomocí úlohy dbt.

Další kroky

Začínáme s úlohami Azure Databricks:

  • Pomocí rychlého startu vytvořte svou první úlohu Azure Databricks.

  • Naučte se vytvářet a spouštět pracovní postupy pomocí uživatelského rozhraní Azure Databricks Jobs.

  • Zjistěte, jak spustit úlohu bez nutnosti konfigurovat výpočetní prostředky Azure Databricks pomocí bezserverových pracovních postupů.

  • Přečtěte si o spuštění úlohy monitorování v uživatelském rozhraní Azure Databricks Jobs.

  • Seznamte se s možnostmi konfigurace pro úlohy.

Další informace o vytváření, správě a řešení potíží s pracovními postupy pomocí úloh Azure Databricks:

  • Zjistěte, jak komunikovat informace mezi úkoly v úloze Azure Databricks s hodnotami úkolů.
  • Zjistěte, jak předat kontext úlohy, na které běží úlohy s proměnnými parametrů úkolu.
  • Zjistěte, jak nakonfigurovat úlohy úlohy tak, aby se spouštěly podmíněně na základě stavu závislostí úlohy.
  • Zjistěte, jak řešit a opravit neúspěšné úlohy.
  • Upozorněte se, když se úloha spustí, dokončí nebo selže s oznámeními o spuštění úlohy.
  • Aktivujte úlohy podle vlastního plánu nebo spusťte nepřetržitou úlohu.
  • Zjistěte, jak spustit úlohu Azure Databricks při příchodu nových dat s triggery přijetí souborů.
  • Naučte se používat výpočetní prostředky Databricks ke spouštění úloh.
  • Přečtěte si informace o aktualizacích rozhraní API úloh, které podporují vytváření a správu pracovních postupů pomocí úloh Azure Databricks.
  • Další informace o implementaci pracovních postupů dat pomocí úloh Azure Databricks vám použijí návody a kurzy.

Co jsou tabulky Delta Live?

Poznámka:

Delta Live Tables vyžaduje plán Premium. Další informace získáte od týmu účtu Databricks.

Delta Live Tables je architektura, která zjednodušuje zpracování dat ETL a streamování dat. Delta Live Tables poskytuje efektivní příjem dat s integrovanou podporou pro rozhraní Auto Loader, SQL a Python, která podporují deklarativní implementaci transformací dat a podporu zápisu transformovaných dat do Delta Lake. Transformace, které se mají provádět s daty, a Delta Live Tables spravuje orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb.

Chcete-li začít, přečtěte si téma Co je Delta Live Tables?.

Úlohy Azure Databricks a dynamické tabulky Delta

Úlohy Azure Databricks a dynamické tabulky Delta poskytují komplexní architekturu pro vytváření a nasazování komplexních pracovních postupů pro zpracování a analýzu dat.

Používejte rozdílové živé tabulky pro veškerý příjem a transformaci dat. Pomocí úloh Azure Databricks můžete orchestrovat úlohy složené z jedné úlohy nebo několika úloh zpracování a analýzy dat na platformě Databricks, včetně příjmu a transformace rozdílových živých tabulek.

Azure Databricks Jobs také podporuje jako systém orchestrace pracovních postupů:

  • Spouštění úloh na základě triggeru, například spuštění pracovního postupu podle plánu.
  • Analýza dat prostřednictvím dotazů SQL, strojového učení a analýzy dat pomocí poznámkových bloků, skriptů nebo externích knihoven atd.
  • Spuštění úlohy složené z jednoho úkolu, například spuštění úlohy Apache Spark zabalené v souboru JAR.

Orchestrace pracovních postupů pomocí Apache AirFlow

I když Databricks k orchestraci pracovních postupů dat doporučuje používat úlohy Azure Databricks, můžete ke správě a plánování datových pracovních postupů použít také Apache Airflow . Pomocí Airflow definujete pracovní postup v souboru Pythonu a Airflow spravuje plánování a spouštění pracovního postupu. Viz Orchestrace úloh Azure Databricks pomocí Apache Airflow.

Orchestrace pracovních postupů pomocí Azure Data Factory

Azure Data Factory (ADF) je cloudová služba pro integraci dat, která umožňuje vytvářet úložiště dat, přesun a zpracování služeb do automatizovaných datových kanálů. ADF můžete použít k orchestraci úlohy Azure Databricks jako součásti kanálu ADF.

Informace o tom, jak spustit úlohu pomocí webové aktivity ADF, včetně ověření ve službě Azure Databricks z ADF, najdete v tématu Využití orchestrace úloh Azure Databricks ze služby Azure Data Factory.

ADF také poskytuje integrovanou podporu spouštění poznámkových bloků Databricks, skriptů Pythonu nebo kódu zabalených v jarech v kanálu ADF.

Informace o spuštění poznámkového bloku Databricks v kanálu ADF najdete v tématu Spuštění poznámkového bloku Databricks s aktivitou poznámkového bloku Databricks ve službě Azure Data Factory a následnou transformací dat spuštěním poznámkového bloku Databricks.

Informace o tom, jak spustit skript Pythonu v kanálu ADF, najdete v tématu Transformace dat spuštěním aktivity Pythonu v Azure Databricks.

Informace o spouštění kódu zabaleného v souboru JAR v kanálu ADF najdete v tématu Transformace dat spuštěním aktivity JAR v Azure Databricks.