Implementace pracovních postupů zpracování a analýzy dat pomocí úloh

Článek
10/05/2024

Pomocí úlohy Azure Databricks můžete orchestrovat zpracování dat, strojové učení nebo kanály analýzy dat na platformě Databricks. Úlohy Azure Databricks podporují řadu typů úloh, včetně poznámkových bloků, skriptů, kanálů Delta Live Tables, dotazů Sql Databricks a projektů dbt . Následující články vás provedou používáním funkcí a možností úloh Azure Databricks k implementaci datových kanálů.

Tip

Sady prostředků Databricks můžete použít k definování a programové správě úloh. Podívejte se , co jsou sady prostředků Databricks? a vyvinout úlohu v Azure Databricks pomocí sad prostředků Databricks.

Transformace, analýza a vizualizace dat pomocí úlohy Azure Databricks

Úlohu můžete použít k vytvoření datového kanálu, který ingestuje, transformuje, analyzuje a vizualizuje data. Příklad použití Databricks SQL v úloze Azure Databricks sestaví kanál, který:

Používá skript Pythonu k načtení dat pomocí rozhraní REST API.
Používá delta živé tabulky k ingestování a transformaci načtených dat a uložení transformovaných dat do Delta Lake.
Pomocí integrace úloh s Databricks SQL analyzuje transformovaná data a vytváří grafy k vizualizaci výsledků.

Použití transformací dbt v úloze

dbt Typ úlohy použijte, pokud provádíte transformaci dat pomocí základního projektu dbt a chcete tento projekt integrovat do úlohy Azure Databricks, nebo chcete vytvořit nové transformace dbt a tyto transformace spustit v úloze. Viz Použití transformací dbt v úloze Azure Databricks.

Použití balíčku Pythonu v úloze

Soubory kol Pythonu představují standardní způsob balení a distribuce souborů potřebných ke spuštění aplikace v Pythonu. Můžete snadno vytvořit úlohu, která používá kód Pythonu zabalený jako soubor kola Pythonu s typem Python wheel úlohy. Viz Použití souboru kola Pythonu v úloze Azure Databricks.

Použití kódu zabaleného v souboru JAR

Knihovny a aplikace implementované v jazyce JVM, jako je Java a Scala, se běžně zabalují do souboru java archive (JAR). Úlohy Azure Databricks podporují kód zabalený v souboru JAR s typem JAR úlohy. Viz Použití souboru JAR v úloze Azure Databricks.

Orchestrace úloh pomocí Apache Airflow

Databricks doporučuje používat úlohy Azure Databricks k orchestraci pracovních postupů. Apache Airflow se ale běžně používá jako systém orchestrace pracovních postupů a poskytuje nativní podporu pro úlohy Azure Databricks. Zatímco úlohy Azure Databricks poskytují vizuální uživatelské rozhraní pro vytváření pracovních postupů, Airflow k definování a nasazení datových kanálů používá soubory Pythonu. Příklad vytvoření a spuštění úlohy pomocí Airflow najdete v tématu Orchestrace úloh Azure Databricks pomocí Apache Airflow.

Spuštění úlohy pomocí instančního objektu

Úlohy můžete spustit jako účet služby pomocí aplikace Microsoft Entra ID a instančního objektu. Spuštění úlohy pod účtem služby místo jednotlivého uživatele umožňuje řídit přístup k úloze, zajistit pro úlohu potřebná oprávnění a zabránit problémům v případě, že se vlastník úlohy odebere z pracovního prostoru. Kurz vytvoření a použití instančního objektu ke spuštění úlohy Azure Databricks najdete v tématu Spuštění úlohy s instančním objektem Microsoft Entra ID.

Sdílet prostřednictvím