Delen via


Zelfstudie: Een Azure Data Factory-pijplijn (ADF) organiseren met Apache Airflow-taak.

Notitie

Apache Airflow-taak wordt mogelijk gemaakt door Apache Airflow.

In deze zelfstudie bouwt u een Apache Airflow DAG om de ADF-pijplijn te organiseren met de Apache Airflow-taak.

Vereisten

Om aan de slag te gaan, moet u aan de volgende vereisten voldoen:

  • Schakel de Apache Airflow-taak in uw tenant in.

    Notitie

    Omdat de Apache Airflow-taak de preview-status heeft, moet u deze inschakelen via uw tenantbeheerder. Als u de Apache Airflow-taak al ziet, heeft uw tenantbeheerder deze mogelijk al ingeschakeld.

    1. Ga naar de beheerportal -> Tenantinstellingen -> Vouw onder Microsoft Fabric> de sectie 'Gebruikers kunnen Apache Airflow-taak maken en gebruiken (preview)' uit.

    2. Klik op Toepassen.

    Schermopname van het inschakelen van Apache Airflow in tenant.

  • Maak de Apache Airflow-taak in de werkruimte.

  • Maak de gegevenspijplijn in Azure Data Factory.

  • Maak de service-principal.

  • Als u een ADF-pijplijn (Azure Data Factory) wilt uitvoeren, voegt u de service-principal toe als een contributor aan het ADF-exemplaar waarop u de pijplijn uitvoert.

Apache Airflow-vereiste toevoegen

  1. Navigeer naar 'Instellingen' en selecteer 'Omgevingsconfiguratie'.

  2. Neem onder 'Vereisten voor Apache Airflow' 'apache-airflow-providers-microsoft-azure' op.

  3. Klik op Toepassen om de wijzigingen op te slaan.

    Schermopname van de vereiste Airflow toevoegen.

Apache Airflow DAG maken

  1. Selecteer eerst de kaart Nieuw DAG-bestand. Wijs vervolgens een naam toe aan het bestand en klik op de knop Maken.

    Schermopname van de naam van het DAG-bestand.

  2. Zodra u deze hebt gemaakt, krijgt u een standaard DAG-code te zien. Bewerk het bestand om de opgegeven inhoud op te nemen. Werk het argument pipeline_name bij met de naam van uw ADF-pijplijn.

from datetime import datetime, timedelta

from airflow.models import DAG
from airflow.providers.microsoft.azure.operators.data_factory import AzureDataFactoryRunPipelineOperator


with DAG(
    dag_id="example_adf_run_pipeline",
    start_date=datetime(2022, 5, 14),
    schedule_interval="@daily",
    catchup=False,
    default_args={
        "retries": 1,
        "retry_delay": timedelta(minutes=3),
        "azure_data_factory_conn_id": "azure_data_factory_conn_id", #This is a connection created on Airflow UI
    },
    default_view="graph",
) as dag:

    run_adf_pipeline = AzureDataFactoryRunPipelineOperator(
        task_id="run_adf_pipeline",
        pipeline_name="<Pipeline Name>",
    )

    run_adf_pipeline
  1. Klik op Opslaan om het bestand op te slaan.

    Schermopname toont hoe u het DAG-bestand opslaat in Microsoft Fabric.

Een Apache Airflow-verbinding maken om verbinding te maken met Azure Data Factory

  1. Klik op 'Airflow-verbindingen weergeven' om een lijst weer te geven met alle verbindingen die zijn geconfigureerd en om een nieuwe verbinding in te stellen.

    Schermopname om de Apache Airflow-verbinding weer te geven.

  2. Klik op +-> Selecteer verbindingstype: Azure Data Factory -> Vul de velden in: Verbindings-id, client-id, geheim, tenant-id, abonnements-id, resourcegroepnaam, factorynaam.

  3. Klik op de knop Opslaan.

De Apache Airflow DAG bewaken en uitvoeren vanuit de Apache Airflow-gebruikersinterface

De opgeslagen dag-bestanden worden geladen in de Gebruikersinterface van Apache Airflow. U kunt ze bewaken door op de knop Controleren in Apache Airflow te klikken.

Schermopname om de Airflow DAG te bewaken.Schermopname voor het laden van Airflow DAG.

Quickstart: Een Apache Airflow-taak maken