Dela via


Transformera data genom att köra en notebook-fil

Använd notebook-aktiviteten för att köra notebook-filer som du skapar i Microsoft Fabric som en del av dina Data Factory-pipelines. Med notebook-filer kan du köra Apache Spark-jobb för att hämta, rensa eller transformera dina data som en del av dina dataarbetsflöden. Det är enkelt att lägga till en Notebooks-aktivitet i dina pipelines i Fabric, och den här guiden leder dig genom varje steg.

Förutsättningar

För att komma igång måste du uppfylla följande krav:

Skapa en notebook-aktivitet

  1. Skapa en ny pipeline på din arbetsyta.

  2. Sök efter Notebook i fönstret Pipelineaktiviteter och välj den för att lägga till den i pipelinearbetsytan.

    Skärmbild av användargränssnittet för infrastrukturresurser med fönstret Aktiviteter och Notebook-aktiviteten markerad.

  3. Välj den nya notebook-aktiviteten på arbetsytan om den inte redan är markerad.

    Skärmbild som visar fliken Allmänna inställningar för aktiviteten Notebook.

    Se vägledningen allmänna inställningar för att konfigurera fliken Allmänna inställningar.

Konfigurera notebook-inställningar

Välj fliken Inställningar.

Under Anslutning väljer du autentiseringsmetoden för notebook-körningen och anger nödvändiga autentiseringsuppgifter eller identitetskonfiguration baserat på ditt val:

  • Service Principal (SPN) – Rekommenderas för produktionsscenarier för att säkerställa säker, automatisk körning utan att förlita sig på användaruppgifter.
  • Arbetsyteidentitet (WI) – Perfekt för hanterade miljöer där centraliserad identitetsstyrning krävs.

Välj en befintlig notebook-fil i listrutan Notebook och ange eventuella parametrar som ska skickas till notebook-filen.

Skärmbild som visar fliken Notebook-inställningar som markerar fliken, var du väljer en notebook-fil och var du vill lägga till parametrar.

Använda Fabric arbetsyteidentitet (WI) i notebook-aktiviteten

  1. Skapa arbetsytans identitet

    Du måste aktivera WI på din arbetsyta (det kan ta en stund att ladda). Skapa en arbetsyteidentitet i din Fabric-arbetsyta. Observera att WI ska skapas på samma arbetsyta som pipelinen.

    Se dokumentationen om arbetsyteidentitet.

  2. Aktivera inställningar på klientorganisationsnivå

    Aktivera följande klientinställning (den är inaktiverad som standard): Serviceprincipaler kan anropa offentliga Fabric-API:er.

    Du kan aktivera den här inställningen i Fabric-adminportalen. Mer information om den här inställningen finns i artikeln aktivera autentisering med tjänstens huvudnamn för administratörs-API:er.

  3. Bevilja arbetsytebehörigheter till arbetsyteidentiteten

    Öppna arbetsytan, välj Hantera åtkomst och tilldela behörigheter till arbetsytans identitet. Deltagaråtkomst räcker för de flesta scenarier. Om din notebook inte finns på samma arbetsyta som din pipeline behöver du tilldela den WI som du skapade på din pipelines arbetsyta minst deltagaråtkomst till din notebooks arbetsyta.

    Kolla in dokumenten på Ge användare åtkomst till arbetsytor.

Sätt sessionens etikett

För att minimera hur lång tid det tar att köra notebook-jobbet kan du ange en sessionstagg. Om du anger sessionstaggen instrueras Spark att återanvända alla befintliga Spark-sessioner, vilket minimerar starttiden. Valfritt godtyckligt strängvärde kan användas för sessionstaggen. Om det inte finns någon session skapas en ny med taggvärdet.

Skärmbild som visar fliken Notebook-inställningar som markerar fliken, där du lägger till sessionstaggen.

Kommentar

För att kunna använda sessionstaggen måste alternativet Hög samtidighet för pipeline som kör flera notebook-filer vara aktiverat. Det här alternativet finns i läget Hög samtidighet för Spark-inställningar under arbetsyteinställningarna

Skärmbild som visar fliken Arbetsyteinställningar som markerar fliken, där du aktiverar läge för hög samtidighet för pipelines som kör flera notebook-filer.

Spara och köra eller schemalägga pipelinen

Växla till fliken Start överst i pipelineredigeraren och välj knappen Spara för att spara din pipeline. Välj Kör för att köra den direkt eller Schemalägg för att schemalägga den. Du kan också visa körningshistoriken här eller konfigurera andra inställningar.

Skärmbild som visar fliken Start i pipelineredigeraren med knapparna Spara, Kör och Schema markerat.

Kända problemområden

  • Wi-alternativet i anslutningsinställningarna visas inte i vissa instanser. Det här är en bugg som en korrigering bearbetas på just nu.