Dela via


Kör en Databricks Notebook med Databricks Notebook-aktiviteten i Azure Data Factory

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

I den här självstudien använder du Azure Portal för att skapa en Azure Data Factory-pipeline som kör en Databricks Notebook mot Databricks-jobbklustret. Den skickar även Azure Data Factory-parametrar till Databricks Notebook under körning.

I de här självstudierna går du igenom följande steg:

  • Skapa en datafabrik.

  • Skapa en pipeline som använder en Databricks Notebook-aktivitet.

  • Utlös en pipelinekörning.

  • Övervaka pipelinekörningen.

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Om du vill se en introduktion och demonstration av den här funktionen rekommenderar vi följande videoklipp (11 minuter):

Förutsättningar

  • Azure Databricks-arbetsyta. Skapa en ny Azure Databricks-arbetsyta eller använd en befintlig. Du skapar en Python Notebook i Azure Databricks-arbetsytan. Sedan kör du denna notebook och skickar parametrar till den med hjälp av Azure Data Factory.

Skapa en datafabrik

  1. Starta webbläsaren Microsoft Edge eller Google Chrome. Just nu är det bara webbläsarna Microsoft Edge och Google Chrome som har stöd för Data Factory UI.

  2. Välj Skapa en resurs på Menyn i Azure-portalen, välj Integrering och välj sedan Data Factory.

    Skärmbild som visar val av Data Factory i fönstret Nytt.

  3. På sidan Skapa datafabrik går du till fliken Grundläggande och väljer din Azure-prenumeration där du vill skapa datafabriken.

  4. Gör något av följande för Resursgrupp:

    1. Välj en befintlig resursgrupp i listrutan.

    2. Välj Skapa ny och ange namnet på en ny resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper till att hantera Azure-resurser.

  5. För Region väljer du platsen för datafabriken.

    I listan visas endast platser som Data Factory har stöd för och var dina Azure Data Factory-metadata kommer att lagras. De associerade datalager (till exempel Azure Storage och Azure SQL Database) och beräkningar (som Azure HDInsight) som Data Factory använder kan köras i andra regioner.

  6. Som Namn anger du ADFTutorialDataFactory.

    Namnet på Azure Data Factory måste vara globalt unikt. Om du ser följande fel ändrar du namnet på datafabriken (använd <till exempel ditt namn>ADFTutorialDataFactory). Namngivningsregler för Data Factory-artefakter finns i artikeln Data Factory – namnregler.

    Skärmbild som visar felet när ett namn inte är tillgängligt.

  7. För Version väljer du V2.

  8. Välj Nästa: Git-konfiguration och markera sedan kryssrutan Konfigurera Git senare.

  9. Välj Granska + skapa och välj Skapa när valideringen har godkänts.

  10. När skapandet är klart väljer du Gå till resurs för att navigera till sidan Data Factory . Välj panelen Öppna Azure Data Factory Studio för att starta azure Data Factory-användargränssnittsprogrammet (UI) på en separat webbläsarflik.

    Skärmbild som visar startsidan för Azure Data Factory med panelen Öppna Azure Data Factory Studio.

Skapa länkade tjänster

I det här avsnittet skapar du en Databricks-länkad tjänst. Den här länkade tjänsten innehåller anslutningsinformation till Databricks-klustret:

Skapa en länkad Azure Databricks-tjänst

  1. På startsidan växlar du till fliken Hantera i den vänstra panelen.

    Skärmbild som visar fliken Hantera.

  2. Välj Länkade tjänster under Anslutningar och välj sedan + Ny.

    Skärmbild som visar hur du skapar en ny anslutning.

  3. I fönstret Ny länkad tjänst väljer du Beräkna>Azure Databricks och väljer sedan Fortsätt.

    Skärmbild som visar hur du anger en länkad Databricks-tjänst.

  4. Slutför följande steg i fönstret Ny länkad tjänst :

    1. Som Namn anger du AzureDatabricks_LinkedService.

    2. Välj lämplig Databricks-arbetsyta som du ska köra anteckningsboken i.

    3. För Välj kluster väljer du Nytt jobbkluster.

    4. För Databrick-arbetsytans URL bör informationen fyllas i automatiskt.

    5. Om du väljer Åtkomsttoken för autentiseringstyp genererar du den från Azure Databricks arbetsplats. Du hittar anvisningar här. För hanterad tjänstidentitet och användartilldelad hanterad identitet beviljar du deltagarrollen till båda identiteterna i Azure Databricks-resursens åtkomstkontrollmeny .

    6. För Klusterversion väljer du den version som du vill använda.

    7. För Klusternodtyp väljer du Standard_D3_v2 under kategorin Generell användning (HDD) för den här självstudien.

    8. För Arbetare anger du 2.

    9. Välj Skapa.

      Skärmbild som visar konfigurationen av den nya länkade Azure Databricks-tjänsten.

Skapa en pipeline

  1. Välj knappen + (plus) och sedan Pipeline från menyn.

    Skärmbild som visar knappar för att skapa en ny pipeline.

  2. Skapa en parameter som ska användas i pipelinen. Senare kan du skicka den här parametern till Databricks Notebook-aktiviteten. I den tomma pipelinen väljer du fliken Parametrar och väljer sedan + Ny och namnger den som "namn".

    Skärmbild som visar hur du skapar en ny parameter.

    Skärmbild som visar hur du skapar namnparametern.

  3. Gå till verktygsfältet Aktiviteter och expandera Databricks. Dra aktiviteten Notebook från verktygsfältet Aktiviteter till pipelinedesignytan.

    Skärmbild som visar hur du drar anteckningsboken till designerytan.

  4. I egenskaperna för aktivitetsfönstret Databricks Notebook längst ned utför du följande steg:

    1. Växla till fliken Azure Databricks.

    2. Välj AzureDatabricks_LinkedService (som du skapade i föregående procedur).

    3. Växla till fliken Settings (Inställningar).

    4. Bläddra och välj en Databricks Notebook-sökväg. Nu ska vi skapa en notebook och ange sökvägen här. Du kan hämta Notebook-sökvägen genom att följa de kommande stegen.

      1. Starta din Azure Databricks-arbetsyta.

      2. Skapa en Ny mapp i arbetsplatsen och ge den namnet adftutorial.

        Skärmbild som visar hur du skapar en ny mapp.

      3. Skärmbild som visar hur du skapar en ny notebook-fil. (Python), vi kallar det mynotebook under adftutorial Folder och klickar på Skapa.

        Skärmbild som visar hur du skapar en ny notebook-fil.

        Skärmbild som visar hur du anger egenskaperna för den nya notebook-filen.

      4. I din nyligen skapade notebook, ”mynotebook”, lägger du till följande kod:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Skärmbild som visar hur du skapar widgetar för parametrar.

      5. Notebook-sökvägen i det här fallet är /adftutorial/mynotebook.

  5. Växla tillbaka till redigeringsverktyget för Data Factory-användargränssnittet. Gå till fliken Inställningar under aktiviteten Notebook1 .

    a. Lägg till en parameter i notebook-aktiviteten. Du använder samma parameter som du lade till tidigare i Pipeline.

    Skärmbild som visar hur du lägger till en parameter.

    b. Namnge parametern som indata och ange värdet som uttryck @pipeline().parameters.name.

  6. Verifiera pipelinen genom att välja knappen Verifiera i verktygsfältet. Stäng valideringsfönstret genom att välja knappen Stäng .

    Skärmbild som visar hur du verifierar pipelinen.

  7. Markera Publicera alla. Data Factory-gränssnittet publicerar entiteter (länkade tjänster och pipelines) till Azure Data Factory-tjänsten.

    Skärmbild som visar hur du publicerar de nya datafabriksentiteterna.

Utlös en pipelinekörning

Välj Lägg till utlösare i verktygsfältet och välj sedan Utlösare nu.

Skärmbild som visar hur du väljer kommandot

Dialogrutan Pipelinekörning frågar efter namnparametern. Använd /path/filename som den här parametern. Välj OK.

Skärmbild som visar hur du anger ett värde för namnparametrarna.

Övervaka pipelinekörningen

  1. Växla till fliken Övervaka . Bekräfta att du ser en pipelinekörning. Det tar cirka 5–8 minuter att skapa ett Databricks-jobbkluster där en notebook körs.

    Skärmbild som visar hur du övervakar pipelinen.

  2. Klicka på Uppdatera då och då så att du ser pipelinekörningens status.

  3. Om du vill se aktivitetskörningar som är associerade med pipelinekörningen väljer du pipeline1-länk i kolumnen Pipelinenamn .

  4. På sidan Aktivitetskörningar väljer du Utdata i kolumnen Aktivitetsnamn för att visa utdata för varje aktivitet. Du hittar länken till Databricks-loggar i fönstret Utdata för mer detaljerade Spark-loggar.

  5. Du kan växla tillbaka till pipelinekörningsvyn genom att välja länken Alla pipelinekörningar i menyn breadcrumb längst upp.

Verifiera utdata

Du kan logga in på Azure Databricks-arbetsytan, gå till Kluster och sedan se status för jobbet: väntar på att köras, körs eller har avslutats.

Skärmbild som visar hur du visar jobbklustret och jobbet.

Du kan klicka på jobbnamnet och navigera för att se ytterligare information. Om körningen lyckas kan du validera parametrarna som skickats samt utdata för en Python Notebook.

Skärmbild som visar hur du visar körningsinformation och utdata.

Pipelinen i det här exemplet utlöser en Databricks Notebook-aktivitet och skickar en parameter till den. Du har lärt dig att:

  • Skapa en datafabrik.

  • Skapa en pipeline som använder en Databricks Notebook-aktivitet.

  • Utlös en pipelinekörning.

  • Övervaka pipelinekörningen.