Dela via


Synkronisera din kod från en befintlig GitHub-lagringsplats

Kommentar

Apache Airflow-jobbet drivs av Apache Airflow.

Dataarbetsflöden, en transformerande funktion i Microsoft Fabric, omdefinierar din metod för att konstruera och hantera datapipelines. Dataarbetsflöden drivs av Apache Airflow-körningen och tillhandahåller en integrerad, molnbaserad plattform för utveckling, schemaläggning och övervakning av Python-baserade dataarbetsflöden, formulerade som riktade Acyclic Graphs (DAG). Det ger en SaaS-upplevelse (Software-as-a-Service) för utveckling och hantering av datapipelines med Apache Airflow, vilket gör körningen lättillgänglig och möjliggör skapande och drift av dina dataarbetsflöden.
Med dataarbetsflöden har du två alternativ för att lagra dina arbetsflödesfiler: Infrastrukturhanterad lagring och GitHub-hanterad lagring. I den här artikeln får du lära dig hur du synkroniserar din kod från en befintlig GitHub-lagringsplats.

Förutsättningar

  • Aktivera Apache Airflow-jobb i klientorganisationen.

Kommentar

Eftersom Apache Airflow-jobbet är i förhandsversionstillstånd måste du aktivera det via klientadministratören. Om du redan ser Apache Airflow-jobb kanske klientadministratören redan har aktiverat det.

  1. Gå till administratörsportalen –> Klientinställningar –> Under Microsoft Fabric –> Expandera avsnittet Användare kan skapa och använda Apache Airflow-jobb (förhandsversion).
  2. Välj Använd.

Skärmbild för att aktivera Apache Airflow i klientorganisationen.

Skapa ett Apache Airflow-jobb

  1. Du kan använda en befintlig arbetsyta eller Skapa en ny arbetsyta.

  2. Expandera + New listrutan –> Klicka på Fler alternativ –> Under Data Factory avsnittet –> Välj Apache Airflow-jobb (förhandsversion)

    Skärmbild som visar klicka på fler alternativ.

    Skärmbild för att välja Apache Airflow-jobb.

  3. Ge projektet ett lämpligt namn och klicka på knappen "Skapa".

Synkronisera din GitHub-lagringsplats

Ange den git-lagringsplats som du vill synkronisera ditt Apache Airflow-jobb med.

  1. Gå till knappen Inställningar och klicka på fliken Arkivlagring. Välj Git-sync som typ av lagring. Skärmbild för att synkronisera GitHub-lagringsplatsen.

  2. Fyll i följande fält:

    • Git-tjänsttyp: Tjänsttyper som stöds:

      • GitHub
      • ADO: Azure DevOps
      • GitLab
      • BitBucket
    • Typ av Git-autentiseringsuppgifter: Typer av autentiseringsuppgifter som stöds:

      • Ingen: Välj den här typen av autentiseringsuppgifter om lagringsplatsen är offentlig.
      • Personlig åtkomsttoken: En personlig åtkomsttoken från Git-tjänsten som används för att autentisera med lagringsplatsen.
        • Fyll i fälten:
          • Användarnamn: Användarnamn för GitHub.
          • Personlig åtkomsttoken
      • Tjänstens huvudnamn: Välj den här autentiseringsuppgiften när du väljer Git-tjänst som Azure Devops:
        • Fyll i fälten:
          • App-ID för tjänstens huvudnamn: Klient-ID för tjänstens huvudnamn som har åtkomst till Azure Devops-lagringsplatsen.
          • Tjänstens huvudhemlighet: Klienthemlighet med åtkomst till Azure DevOps-lagringsplats.
          • Klient-ID för tjänstens huvudnamn: Klientorganisations-ID för tjänstens huvudnamn.
      • Lagringsplats: Klon-URL:en till den lagringsplats som du vill synkronisera.
      • Gren: Namnet på lagringsplatsens gren som du vill synkronisera.
  3. Klicka på Tillämpa.

Övervaka dina DAG:er

  • Om du vill kontrollera om lagringsplatsen är synkroniserad går du till Apache Airflows användargränssnitt genom att klicka på "Övervaka i Apache Airflow". I användargränssnittet ser du att alla DAG:er från din lagringsplats läses in direkt. Skärmbild för att övervaka DAG:er i Apache AirFlow.

  • Kodredigeraren stöds inte när du använder git-sync-lagring. Du måste redigera koden lokalt och skicka ändringarna till din fjärranslutna Git-lagringsplats. Din senaste incheckning synkroniseras automatiskt med dataarbetsflöden och du kan se din uppdaterade kod i Apache Airflows användargränssnitt.

Git-lagringsplatsstruktur som stöds

|── dags/
|   |-- *.py
|-- plugins
|    |-- executors/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- hooks/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- operators/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- transfers/
|    |   ├-- __init__.py
|    |   └-- *.py
|    |-- triggers/
|    |    ├-- __init__.py
|    |    └-- *.py

Kommentar

Vi synkroniserar endast mapparna dags och plugins från lagringsplatsen. Kontrollera att alla filer eller undermappar finns i någon av dessa mappar.