Zelfstudie: Een Azure Data Factory-pijplijn (ADF) organiseren met Apache Airflow-taak.
Notitie
Apache Airflow-taak wordt mogelijk gemaakt door Apache Airflow.
In deze zelfstudie bouwt u een Apache Airflow DAG om de ADF-pijplijn te organiseren met de Apache Airflow-taak.
Vereisten
Om aan de slag te gaan, moet u aan de volgende vereisten voldoen:
Schakel de Apache Airflow-taak in uw tenant in.
Notitie
Omdat de Apache Airflow-taak de preview-status heeft, moet u deze inschakelen via uw tenantbeheerder. Als u de Apache Airflow-taak al ziet, heeft uw tenantbeheerder deze mogelijk al ingeschakeld.
Ga naar de beheerportal -> Tenantinstellingen -> Vouw onder Microsoft Fabric> de sectie 'Gebruikers kunnen Apache Airflow-taak maken en gebruiken (preview)' uit.
Klik op Toepassen.
Als u een ADF-pijplijn (Azure Data Factory) wilt uitvoeren, voegt u de service-principal toe als een
contributor
aan het ADF-exemplaar waarop u de pijplijn uitvoert.
Apache Airflow-vereiste toevoegen
Navigeer naar 'Instellingen' en selecteer 'Omgevingsconfiguratie'.
Neem onder 'Vereisten voor Apache Airflow' 'apache-airflow-providers-microsoft-azure' op.
Klik op Toepassen om de wijzigingen op te slaan.
Apache Airflow DAG maken
Selecteer eerst de kaart Nieuw DAG-bestand. Wijs vervolgens een naam toe aan het bestand en klik op de knop Maken.
Zodra u deze hebt gemaakt, krijgt u een standaard DAG-code te zien. Bewerk het bestand om de opgegeven inhoud op te nemen. Werk het argument pipeline_name bij met de naam van uw ADF-pijplijn.
from datetime import datetime, timedelta
from airflow.models import DAG
from airflow.providers.microsoft.azure.operators.data_factory import AzureDataFactoryRunPipelineOperator
with DAG(
dag_id="example_adf_run_pipeline",
start_date=datetime(2022, 5, 14),
schedule_interval="@daily",
catchup=False,
default_args={
"retries": 1,
"retry_delay": timedelta(minutes=3),
"azure_data_factory_conn_id": "azure_data_factory_conn_id", #This is a connection created on Airflow UI
},
default_view="graph",
) as dag:
run_adf_pipeline = AzureDataFactoryRunPipelineOperator(
task_id="run_adf_pipeline",
pipeline_name="<Pipeline Name>",
)
run_adf_pipeline
Een Apache Airflow-verbinding maken om verbinding te maken met Azure Data Factory
Klik op 'Airflow-verbindingen weergeven' om een lijst weer te geven met alle verbindingen die zijn geconfigureerd en om een nieuwe verbinding in te stellen.
Klik op +-> Selecteer verbindingstype: Azure Data Factory -> Vul de velden in: Verbindings-id, client-id, geheim, tenant-id, abonnements-id, resourcegroepnaam, factorynaam.
Klik op de knop Opslaan.
De Apache Airflow DAG bewaken en uitvoeren vanuit de Apache Airflow-gebruikersinterface
De opgeslagen dag-bestanden worden geladen in de Gebruikersinterface van Apache Airflow. U kunt ze bewaken door op de knop Controleren in Apache Airflow te klikken.
Gerelateerde inhoud
Quickstart: Een Apache Airflow-taak maken