Dela via


Synkronisera din kod från en befintlig GitHub-lagringsplats

Kommentar

Apache Airflow-jobbet drivs av Apache Airflow.

Dataarbetsflöden, en transformerande funktion i Microsoft Fabric, omdefinierar din metod för att konstruera och hantera pipelines. Dataarbetsflöden drivs av Apache Airflow-körningen och tillhandahåller en integrerad, molnbaserad plattform för utveckling, schemaläggning och övervakning av Python-baserade dataarbetsflöden, formulerade som riktade Acyclic Graphs (DAG). Det ger en SaaS-upplevelse (Software-as-a-Service) för pipelineutveckling och hantering med Apache Airflow, vilket gör körningen lättillgänglig och möjliggör skapande och drift av dina dataarbetsflöden.
Med dataarbetsflöden har du två alternativ för att lagra dina arbetsflödesfiler: Infrastrukturhanterad lagring och GitHub-hanterad lagring. I den här artikeln får du lära dig hur du synkroniserar din kod från en befintlig GitHub-lagringsplats.

Skapa ett Apache Airflow-jobb

  1. Du kan använda en befintlig arbetsyta eller Skapa en ny arbetsyta.

  2. Expandera + New listrutan –> Klicka på Fler alternativ –> Under Data Factory avsnittet –> Välj Apache Airflow-jobb (förhandsversion)

    Skärmbild som visar klicka på fler alternativ.

    Skärmbild för att välja Apache Airflow-jobb.

  3. Ge projektet ett lämpligt namn och klicka på knappen "Skapa".

Synkronisera din GitHub-lagringsplats

Ange den git-lagringsplats som du vill synkronisera ditt Apache Airflow-jobb med.

  1. Gå till knappen Inställningar och klicka på fliken Arkivlagring. Välj Git-sync som typ av lagring. Skärmbild för att synkronisera GitHub-lagringsplatsen.

  2. Fyll i följande fält:

    • Git-tjänsttyp: Tjänsttyper som stöds:

      • GitHub
      • ADO: Azure DevOps
      • GitLab
      • BitBucket
    • Typ av Git-autentiseringsuppgifter: Typer av autentiseringsuppgifter som stöds:

      • Ingen: Välj den här typen av autentiseringsuppgifter om lagringsplatsen är offentlig.
      • Personlig åtkomsttoken: En personlig åtkomsttoken från Git-tjänsten som används för att autentisera med lagringsplatsen.
        • Fyll i fälten:
          • Användarnamn: Användarnamn för GitHub.
          • Personlig åtkomsttoken
      • Tjänstens huvudnamn: Välj den här autentiseringsuppgiften när du väljer Git-tjänst som Azure Devops:
        • Fyll i fälten:
          • App-ID för tjänstens huvudnamn: Klient-ID för tjänstens huvudnamn som har åtkomst till Azure Devops-lagringsplatsen.
          • Tjänstens huvudhemlighet: Klienthemlighet med åtkomst till Azure DevOps-lagringsplats.
          • Klientorganisations-ID för tjänstens huvudkonto: Klientorganisations-ID för ditt tjänstehuvudkonto.
      • Lagringsplats: Klon-URL:en till den lagringsplats som du vill synkronisera.
      • Gren: Namnet på lagringsplatsens gren som du vill synkronisera.
  3. Klicka på Tillämpa.

Övervaka dina DAG:er

  • Om du vill kontrollera om lagringsplatsen är synkroniserad går du till Apache Airflows användargränssnitt genom att klicka på "Övervaka i Apache Airflow". I användargränssnittet ser du att alla DAG:er från din lagringsplats läses in direkt. Skärmbild för att övervaka DAG:er i Apache AirFlow.

  • Kodredigeraren stöds inte när du använder git-sync-lagring. Du måste redigera koden lokalt och skicka ändringarna till din fjärranslutna Git-lagringsplats. Din senaste incheckning synkroniseras automatiskt med dataarbetsflöden och du kan se din uppdaterade kod i Apache Airflows användargränssnitt.

Git-lagringsplatsstruktur som stöds

|── dags/
|   |-- *.py
|-- plugins
|    |-- executors/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- hooks/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- operators/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- transfers/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- triggers/
|    |    ├-- __init__.py
|    |    └-- *.py

Kommentar

Vi synkroniserar endast mapparna dags och plugins från lagringsplatsen. Kontrollera att alla filer eller undermappar finns i någon av dessa mappar.