Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Úloha Apache Airflow využívá Apache Airflow.
Tento kurz popisuje integraci Azure Databricks a úlohy Apache Airflow (využívající Apache Airflow) pro orchestraci pracovních toků. Orchestrace úloh je zásadní pro správu složitých pracovních postupů, zajištění přesnosti dat a optimalizaci efektivity zpracování. Azure Databricks je výkonná analytická platforma založená na Apache Sparku, zatímco Apache Airflow nabízí robustní možnosti správy pracovních postupů. Kombinace těchto nástrojů umožňuje bezproblémovou koordinaci úloh od příjmu dat po transformaci a analýzu. Připojení Apache Airflow Azure Databricks umožňuje využívat optimalizovaný modul Spark nabízený službou Azure Databricks s funkcemi plánování Apache Airflow.
V tomto kurzu vytvoříte DAG Apache Airflow, který aktivuje úlohu Azure Databricks pomocí úlohy Apache Airflow.
Požadavky
Abyste mohli začít, musíte splnit následující požadavky:
Přidání požadavku Apache Airflow
Přejděte na Nastavení a vyberte Konfigurace prostředí.
V části Požadavky na Apache Airflow uveďte apache-airflow-providers-databricks.
Výběrem možnosti Použít uložte změny.
Vytvořte osobní přístupový token Azure Databricks pro připojení k Apache Airflow.
- V pracovním prostoru Azure Databricks vyberte uživatelské jméno Azure Databricks v horním panelu a pak v rozevíracím seznamu vyberte Nastavení.
- Vyberte Vývojář.
- Vedle přístupových tokenů vyberte Spravovat.
- Vyberte Vygenerovat nový token.
- (Volitelné) Zadejte komentář, který vám pomůže identifikovat tento token v budoucnu a změnit výchozí životnost tokenu na 90 dnů. Pokud chcete vytvořit token bez životnosti (nedoporučuje se), nechte pole Životnost (dny) prázdné (prázdné).
- Vyberte Generovat.
- Zkopírujte zobrazený token do zabezpečeného umístění a pak vyberte Hotovo.
Vytvoření připojení Apache Airflow pro připojení k pracovnímu prostoru Azure Databricks
Když jako požadavek v prostředí úloh Apache Airflow nainstalujete apache-airflow-providers-databricks, ve výchozím nastavení se v seznamu připojení Apache Airflow nakonfiguruje výchozí připojení pro Azure Databricks. Aktualizujte připojení pro váš pracovní prostor pomocí osobního přístupového tokenu, který jste vytvořili dříve:
Výběrem možnosti Zobrazit připojení airflow zobrazíte seznam všech nakonfigurovaných připojení.
V části Conn ID vyhledejte databricks_default a vyberte tlačítko Upravit záznam.
Hodnotu v poli Hostitel nahraďte názvem instance pracovního prostoru vašeho nasazení Azure Databricks, například
https://adb-123456789.cloud.databricks.com.Do pole Heslo zadejte osobní přístupový token Azure Databricks.
Zvolte Uložit.
Vytvoření DAG Apache Airflow
Začněte výběrem karty Nový soubor DAG. Potom souboru přiřaďte název a vyberte Vytvořit.
Jakmile je vytvořen, zobrazí se vám šablonový kód DAG. Upravte soubor tak, aby zahrnoval zadaný obsah. Aktualizujte argument
job_ido ID úlohy Azure Databricks.
from airflow import DAG
from airflow.providers.databricks.operators.databricks import DatabricksRunNowOperator
from airflow.utils.dates import days_ago
default_args = {
'owner': 'airflow'
}
with DAG('databricks_dag',
start_date = days_ago(2),
schedule_interval = "@hourly",
default_args = default_args
) as dag:
transform_data = DatabricksRunNowOperator(
task_id = 'transform_data',
databricks_conn_id = 'databricks_default',
job_id ="<JOB_ID>>"
)
Monitorování DAG Apache Airflow a jeho spuštění z uživatelského rozhraní Apache Airflow
Po uložení se soubory DAG automaticky načtou do uživatelského rozhraní Apache Airflow. Pokud je chcete monitorovat, vyberte tlačítko Sledovat v Apache Airflow.