Spuštění úlohy Azure Databricks s bezserverovými výpočetními prostředky pro pracovní postupy

Důležité

Výpočetní prostředky bez serveru pro pracovní postupy jsou ve verzi Public Preview. Informace o způsobilosti a povolení najdete v tématu Povolení bezserverového výpočetního prostředí ve verzi Public Preview.

Důležité

Důležité

Vzhledem k tomu, že verze Public Preview bezserverových výpočetních prostředků pro pracovní postupy nepodporuje řízení odchozího provozu, mají vaše úlohy plný přístup k internetu.

Bezserverové výpočetní prostředky pro pracovní postupy umožňují spouštět úlohu Azure Databricks bez konfigurace a nasazení infrastruktury. Díky bezserverovým výpočetním prostředkům se zaměřujete na implementaci kanálů zpracování a analýzy dat a Azure Databricks efektivně spravuje výpočetní prostředky, včetně optimalizace a škálování výpočetních prostředků pro vaše úlohy. Automatické škálování a Photon jsou automaticky povolené pro výpočetní prostředky, které spouští vaši úlohu.

Bezserverové výpočetní prostředky pro pracovní postupy automatické optimalizace automaticky optimalizují výpočetní prostředky výběrem vhodných prostředků, jako jsou typy instancí, paměť a procesorové moduly založené na vaší úloze. Automatická optimalizace také automaticky opakuje neúspěšné úlohy.

Databricks automaticky upgraduje verzi Databricks Runtime tak, aby podporovala vylepšení a upgrady na platformu a současně zajišťuje stabilitu úloh Azure Databricks. Pokud chcete zobrazit aktuální verzi databricks Runtime používanou bezserverovými výpočetními prostředky pro pracovní postupy, přečtěte si poznámky k verzi bezserverového výpočetního prostředí.

Vzhledem k tomu, že oprávnění k vytvoření clusteru není potřeba, můžou všichni uživatelé pracovního prostoru ke spouštění pracovních postupů používat bezserverové výpočetní prostředky.

Tento článek popisuje použití uživatelského rozhraní úloh Azure Databricks k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky. Můžete také automatizovat vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky pomocí rozhraní API úloh, sad prostředků Databricks a sady Databricks SDK pro Python.

  • Informace o použití rozhraní API úloh k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v referenčních informacích k úlohům v rozhraní REST API.
  • Další informace o použití sad prostředků Databricks k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v tématu Vývoj úlohy v Azure Databricks pomocí sad prostředků Databricks.
  • Další informace o použití sady Databricks SDK pro Python k vytváření a spouštění úloh, které používají bezserverové výpočetní prostředky, najdete v tématu Databricks SDK pro Python.

Požadavky

  • Váš pracovní prostor Azure Databricks musí mít povolený katalog Unity.
  • Vzhledem k tomu, že výpočetní prostředky bez serveru pro pracovní postupy používají režim sdíleného přístupu, musí vaše úlohy podporovat tento režim přístupu.
  • Váš pracovní prostor Azure Databricks musí být v podporované oblasti. Viz oblasti Azure Databricks.

Vytvoření úlohy pomocí bezserverového výpočetního prostředí

Bezserverové výpočetní prostředky se podporují v typech úloh poznámkového bloku, skriptu Pythonu, dbt a kolečka Pythonu. Ve výchozím nastavení se výpočetní prostředky bez serveru při vytváření nové úlohy vyberou jako typ výpočetních prostředků a přidají jeden z těchto podporovaných typů úloh.

Vytvoření úlohy bez serveru

Databricks doporučuje používat bezserverové výpočetní prostředky pro všechny úlohy. Můžete také zadat různé typy výpočetních prostředků pro úkoly v úloze, které se můžou vyžadovat, pokud typ úkolu nepodporuje výpočetní prostředky bez serveru pro pracovní postupy.

Konfigurace existující úlohy pro použití bezserverového výpočetního prostředí

Existující úlohu můžete přepnout tak, aby při úpravě úlohy používala bezserverové výpočetní prostředky pro podporované typy úloh. Pokud chcete přepnout na výpočetní prostředí bez serveru, proveďte jednu z těchto akcí:

  • Na bočním panelu Podrobnosti úlohy klikněte na Prohodit v části Výpočty, klikněte na Nový, zadejte nebo aktualizujte všechna nastavení a klepněte na tlačítko Aktualizovat.
  • Klikněte Stříšku dolů v rozevírací nabídce Compute a vyberte Bezserverový.

Přepnutí úlohy na bezserverové výpočetní prostředky

Naplánování poznámkového bloku pomocí bezserverového výpočetního prostředí

Kromě použití uživatelského rozhraní úloh k vytvoření a naplánování úlohy pomocí bezserverového výpočetního prostředí můžete vytvořit a spustit úlohu, která používá bezserverové výpočetní prostředky přímo z poznámkového bloku Databricks. Viz Vytvoření a správa naplánovaných úloh poznámkového bloku.

Nastavení parametrů konfigurace Sparku

Následující parametry konfigurace Sparku, ale jenom na úrovni relace, můžete nastavit tak, že je nastavíte v poznámkovém bloku, který je součástí úlohy. Viz Získání a nastavení vlastností konfigurace Apache Sparku v poznámkovém bloku.

  • spark.sql.legacy.timeParserPolicy
  • spark.sql.session.timeZone

Konfigurace prostředí a závislostí poznámkového bloku

Pokud chcete spravovat závislosti knihovny a konfiguraci prostředí pro úlohu poznámkového bloku, přidejte konfiguraci do buňky v poznámkovém bloku. Následující příklad nainstaluje knihovny Pythonu ze pip install souborů pracovního prostoru a se souborem requirements.txt a nastaví proměnnou spark.sql.session.timeZone relace:

%pip install -r ./requirements.txt
%pip install simplejson
%pip install /Volumes/my/python.whl
%pip install /Workspace/my/python.whl
%pip install https://some-distro.net/popular.whl
spark.conf.set('spark.sql.session.timeZone', 'Europe/Amsterdam')

Pokud chcete nastavit stejné prostředí ve více poznámkových blocích, můžete použít jeden poznámkový blok ke konfiguraci prostředí a pak pomocí %run příkazu magic spustit tento poznámkový blok z libovolného poznámkového bloku, který vyžaduje konfiguraci prostředí. Viz Použití %run k importu poznámkového bloku.

Konfigurace prostředí a závislostí pro úlohy, které nejsou poznámkovými bloky

Pro jiné podporované typy úloh, jako je skript Pythonu, kolo Pythonu nebo úlohy dbt, obsahuje výchozí prostředí nainstalované knihovny Pythonu. Pokud chcete zobrazit seznam nainstalovaných knihoven, přečtěte si část Nainstalované knihovny Pythonu v poznámkách k verzi pro verzi Databricks Runtime, na které je založené bezserverové výpočetní prostředí pro nasazení pracovních postupů. Pokud chcete zobrazit aktuální verzi databricks Runtime používanou bezserverovými výpočetními prostředky pro pracovní postupy, přečtěte si poznámky k verzi bezserverového výpočetního prostředí. Knihovny Pythonu můžete nainstalovat také v případě, že úloha vyžaduje knihovnu, která není nainstalovaná. Knihovny Pythonu můžete nainstalovat ze souborů pracovního prostoru, svazků katalogu Unity nebo veřejného úložiště balíčků. Přidání knihovny při vytváření nebo úpravě úkolu:

  1. V rozevírací nabídce Prostředí a knihovny klikněte vedle Ikona Upravit výchozího prostředí nebo klikněte na + Přidat nové prostředí.

    Úprava výchozího prostředí

  2. V dialogovém okně Konfigurovat prostředí klikněte na + Přidat knihovnu.

  3. V rozevírací nabídce v části Knihovny vyberte typ závislosti.

  4. Do textového pole Cesta k souboru zadejte cestu ke knihovně.

  • Pro kolo Pythonu v souboru pracovního prostoru by měla být cesta absolutní a začínat na /Workspace/.

  • Pro kolo Pythonu ve svazku katalogu Unity by měla být /Volumes/<catalog>/<schema>/<volume>/<path>.whlcesta .

  • requirements.txt Pro soubor vyberte PyPi a zadejte -r /path/to/requirements.txt.

    Přidání knihoven úkolů

  1. Chcete-li přidat další knihovnu, klikněte na tlačítko Potvrdit nebo přidat knihovnu.
  2. Pokud přidáváte úkol, klikněte na Vytvořit úkol. Pokud upravujete úkol, klikněte na Uložit úkol.

Konfigurace automatické optimalizace výpočetních prostředků bez serveru tak, aby se nepovolily opakování

Bezserverové výpočetní prostředky pro pracovní postupy automatická optimalizace automaticky optimalizuje výpočetní prostředky používané ke spouštění úloh a opakování neúspěšných úloh. Ve výchozím nastavení je povolená automatická optimalizace a Databricks doporučuje nechat ji povolenou, aby se zajistilo úspěšné spuštění důležitých úloh alespoň jednou. Pokud ale máte úlohy, které se musí spouštět najednou, například úlohy, které nejsou idempotentní, můžete při přidávání nebo úpravách úlohy vypnout automatickou optimalizaci:

  1. Vedle možnosti Opakování klikněte na Přidat (nebo Ikona Upravit pokud už existuje zásada opakování).
  2. V dialogovém okně Zásady opakování zrušte zaškrtnutí políčka Povolit automatickou optimalizaci bez serveru (může obsahovat další opakování).
  3. Klikněte na tlačítko Potvrdit.
  4. Pokud přidáváte úkol, klikněte na Vytvořit úkol. Pokud upravujete úkol, klikněte na Uložit úkol.

Monitorování nákladů na úlohy, které používají bezserverové výpočetní prostředky pro pracovní postupy

Náklady na úlohy, které používají bezserverové výpočetní prostředky pro pracovní postupy, můžete monitorovat dotazováním fakturovatelné systémové tabulky využití. Tato tabulka se aktualizuje tak, aby zahrnovala atributy uživatelů a úloh týkající se nákladů na bezserverovou architekturu. Viz Referenční informace k tabulce systému fakturovatelného využití.

Zobrazení podrobností o dotazech Sparku

Bezserverové výpočetní prostředky pro pracovní postupy mají nové rozhraní pro zobrazení podrobných informací o modulu runtime pro příkazy Sparku, jako jsou metriky a plány dotazů. Zobrazení přehledů dotazů pro příkazy Sparku, které jsou součástí úloh spuštěných na bezserverových výpočetních prostředcích:

  1. Na bočním panelu klikněte na Ikona ÚlohPracovní postupy.
  2. Ve sloupci Název klikněte na název úlohy, pro kterou chcete zobrazit přehledy.
  3. Klikněte na konkrétní spuštění, pro které chcete zobrazit přehledy.
  4. V části Výpočty na bočním panelu Spuštění úlohy klikněte na Historii dotazů.
  5. Budete přesměrováni do historie dotazů, která je předem filtrovaná na základě ID spuštění úlohy, ve které jste byli.

Informace o používání historie dotazů najdete v tématu Historie dotazů.

Omezení

Seznam bezserverových výpočetních prostředků pro omezení pracovních postupů najdete v poznámkách k verzi bezserverových výpočetních prostředků bez serveru.