Dela via


Självstudie: Dirigera en Azure Data Factory-pipeline (ADF) med Apache Airflow-jobb.

Kommentar

Apache Airflow-jobbet drivs av Apache Airflow.

I den här självstudien skapar du en Apache Airflow DAG för att orkestrera ADF-pipelinen med Apache Airflow-jobbet.

Förutsättningar

För att komma igång måste du uppfylla följande krav:

  • Aktivera Apache Airflow-jobb i klientorganisationen.

    Kommentar

    Eftersom Apache Airflow-jobbet är i förhandsversionstillstånd måste du aktivera det via klientadministratören. Om du redan ser Apache Airflow-jobb kanske klientadministratören redan har aktiverat det.

    1. Gå till administratörsportalen –> Klientinställningar –> Under Microsoft Fabric –> Expandera avsnittet "Användare kan skapa och använda Apache Airflow-jobb (förhandsversion)."

    2. Klicka på Använd.

    Skärmbild för att aktivera Apache Airflow i klientorganisationen.

  • Skapa "Apache Airflow-jobbet" på arbetsytan..

  • Skapa datapipelinen i Azure Data Factory.

  • Skapa tjänstens huvudnamn.

  • Om du vill köra Azure Data Factory-pipelinen (ADF) lägger du till tjänstens huvudnamn som en contributor i ADF-instansen där du kör pipelinen.

Lägg till Apache Airflow-krav

  1. Gå till "Inställningar" och välj "Miljökonfiguration".

  2. Under "Apache Airflow Requirements" innehåller du "apache-airflow-providers-microsoft-azure".

  3. Klicka på "Tillämpa" för att spara ändringarna.

    Skärmbild för att lägga till airflow-krav.

Skapa Apache Airflow DAG

  1. Börja med att välja kortet "Ny DAG-fil". Tilldela sedan filen ett namn och klicka på knappen "Skapa".

    Skärmbild som namnger DAG-filen.

  2. När du har skapats visas en STANDARD-DAG-kod. Redigera filen så att den innehåller det angivna innehållet. Uppdatera argumentet pipeline_name med namnet på din ADF-pipeline.

from datetime import datetime, timedelta

from airflow.models import DAG
from airflow.providers.microsoft.azure.operators.data_factory import AzureDataFactoryRunPipelineOperator


with DAG(
    dag_id="example_adf_run_pipeline",
    start_date=datetime(2022, 5, 14),
    schedule_interval="@daily",
    catchup=False,
    default_args={
        "retries": 1,
        "retry_delay": timedelta(minutes=3),
        "azure_data_factory_conn_id": "azure_data_factory_conn_id", #This is a connection created on Airflow UI
    },
    default_view="graph",
) as dag:

    run_adf_pipeline = AzureDataFactoryRunPipelineOperator(
        task_id="run_adf_pipeline",
        pipeline_name="<Pipeline Name>",
    )

    run_adf_pipeline
  1. Klicka på Spara för att spara filen.

    Skärmbild som visar hur du sparar DAG-filen i Microsoft Fabric.

Skapa en Apache Airflow-anslutning för att ansluta till Azure Data Factory

  1. Klicka på "Visa Airflow-anslutningar" för att se en lista över alla anslutningar som har konfigurerats och för att konfigurera en ny.

    Skärmbild för att visa Apache Airflow-anslutning.

  2. Klicka på "+" –> Välj Anslutningstyp: Azure Data Factory –> Fyll i fälten: Anslutnings-ID, Klient-ID, Hemlighet, Klient-ID, Prenumerations-ID, Resursgruppsnamn, Fabriksnamn.

  3. Klicka på knappen Spara.

Övervaka Apache Airflow DAG och kör den från Apache Airflow-användargränssnittet

De sparade dagfilerna läses in i Apache Airflow-användargränssnittet. Du kan övervaka dem genom att klicka på knappen "Övervaka i Apache Airflow".

Skärmbild för att övervaka Airflow DAG.Skärmbild för att läsa in Airflow DAG.

Snabbstart: Skapa ett Apache Airflow-jobb