Mappa felsökningsläge för dataflöde

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Översikt

Azure Data Factory och Synapse Analytics som mappar dataflödets felsökningsläge kan du interaktivt se hur dataformen transformeras medan du skapar och felsöker dina dataflöden. Felsökningssessionen kan användas både i Dataflöde designsessioner och vid pipeline-felsökning av dataflöden. Om du vill aktivera felsökningsläget använder du knappen Dataflöde Felsöka i det övre fältet för arbetsytan för dataflödet eller pipelinearbetsytan när du har dataflödesaktiviteter.

Skärmbild som visar var är felsökningsreglaget 1

Skärmbild som visar var är felsökningsreglaget 2

När du aktiverar skjutreglaget uppmanas du att välja vilken integrationskörningskonfiguration du vill använda. Om AutoResolveIntegrationRuntime väljs, kommer ett kluster med åtta kärnor av allmän beräkning med en standardtid på 60 minuter att leva att ökas. Om du vill tillåta ett mer inaktivt team innan tidsgränsen för sessionen uppnås kan du välja en högre TTL-inställning. Mer information om dataflödesintegreringskörningar finns i Integration Runtime prestanda.

FelsökA IR-val

När felsökningsläget är aktiverat skapar du ditt dataflöde interaktivt med ett aktivt Spark-kluster. Sessionen stängs när du inaktiverar felsökningen. Du bör vara medveten om de timavgifter som datafabriken debiteras under den tid då felsökningssessionen är aktiverad.

I de flesta fall är det en bra idé att skapa dina dataflöden i felsökningsläge så att du kan verifiera din affärslogik och visa dina datatransformeringar innan du publicerar ditt arbete. Använd knappen "Felsök" på pipelinepanelen för att testa dataflödet i en pipeline.

Anteckning

Varje felsökningssession som en användare startar från sitt webbläsargränssnitt är en ny session med ett eget Spark-kluster. Du kan använda övervakningsvyn för felsökningssessioner ovan för att visa och hantera felsökningssessioner. Du debiteras för varje timme som varje felsökningssession körs, inklusive TTL-tiden.

Klusterstatus

Klusterstatusindikatorn överst på designytan blir grön när klustret är redo för felsökning. Om klustret redan är varmt visas den gröna indikatorn nästan omedelbart. Om klustret inte redan kördes när du gick in i felsökningsläget utför Spark-klustret en kall start. Indikatorn snurrar tills miljön är redo för interaktiv felsökning.

När du är klar med felsökningen inaktiverar du felsökningsknappen så att Spark-klustret kan avslutas och du inte längre debiteras för felsökningsaktivitet.

Felsökningsinställningar

När du aktiverar felsökningsläget kan du redigera hur ett dataflöde förhandsgranskar data. Felsökningsinställningar kan redigeras genom att klicka på "Felsökningsinställningar" i verktygsfältet Dataflöde arbetsytor. Du kan välja den radgräns eller filkälla som ska användas för var och en av dina källomvandlingar här. Radgränserna i den här inställningen gäller endast för den aktuella felsökningssessionen. Du kan också välja den mellanlagringslänkade tjänsten som ska användas för en Azure Synapse Analytics-källa.

Felsökningsinställningar

Om du har parametrar i Dataflöde eller någon av dess refererade datauppsättningar kan du ange vilka värden som ska användas under felsökningen genom att välja fliken Parametrar.

Använd samplingsinställningarna här för att peka på exempelfiler eller exempeltabeller med data så att du inte behöver ändra dina källdatauppsättningar. Genom att använda en exempelfil eller tabell här kan du behålla samma logik- och egenskapsinställningar i dataflödet när du testar mot en delmängd data.

Parametrar för felsökningsinställningar

Standard-IR:t som används för felsökningsläge i dataflöden är en liten 4-kärnig nod med en enda arbetsnod med 4 kärnor. Detta fungerar bra med mindre dataexempel när du testar dataflödeslogik. Om du expanderar radgränserna i felsökningsinställningarna under dataförhandsgranskningen eller anger ett högre antal samplade rader i källan under pipelinefelsökningen kan du överväga att ange en större beräkningsmiljö i en ny Azure-Integration Runtime. Sedan kan du starta om felsökningssessionen med hjälp av den större beräkningsmiljön.

Förhandsgranskning

När felsökningen är aktiverad lyser fliken Dataförhandsgranskning upp på den nedre panelen. Utan felsökningsläge på visar Dataflöde endast aktuella metadata in och ut från var och en av dina transformeringar på fliken Inspektera. Dataförhandsgranskningen frågar bara antalet rader som du har angett som gräns i felsökningsinställningarna. Klicka på Uppdatera för att uppdatera dataförhandsgranskningen baserat på dina aktuella transformeringar. Om dina källdata har ändrats klickar du på uppdatera > refetch från källan.

Förhandsgranskning

Anteckning

Filkällor begränsar bara de rader som visas, inte de rader som läss. För mycket stora datamängder rekommenderar vi att du tar en liten del av filen och använder den för testningen. Du kan välja en tillfällig fil i Felsökningsinställningar för varje källa som är en fildatauppsättningstyp.

När du kör i felsökningsläge i Dataflöde skrivs inte dina data till sink-transformen. En felsökningssession är avsedd att fungera som testsele för dina transformeringar. Mottagare krävs inte under felsökningen och ignoreras i dataflödet. Om du vill testa att skriva data i mottagaren kör du Dataflöde från en pipeline och använder felsökningskörningen från en pipeline.

Dataförhandsgranskning är en ögonblicksbild av dina transformerade data med hjälp av radgränser och datasampling från dataramar i Spark-minnet. Därför används eller testas inte mottagardrivrutinerna i det här scenariot.

Testa kopplingsvillkor

När enhetstestning ansluter, finns eller uppslagstransformering ska du se till att du använder en liten uppsättning kända data för testet. Du kan använda alternativet Felsökningsinställningar ovan för att ange en tillfällig fil som ska användas för testningen. Detta behövs eftersom du inte kan förutsäga vilka rader och vilka nycklar som ska läsas in i flödet för testning när du begränsar eller samplar rader från en stor datauppsättning. Resultatet är icke-deterministiskt, vilket innebär att dina kopplingsvillkor kan misslyckas.

Snabbåtgärder

När du ser dataförhandsgranskningen kan du generera en snabb omvandling till typecast, ta bort eller göra en ändring i en kolumn. Klicka på kolumnrubriken och välj sedan något av alternativen i verktygsfältet för dataförhandsgranskning.

Skärmbild som visar verktygsfältet för dataförhandsgranskning med alternativ: Typecast, Modify, Statistics och Remove.

När du har valt en ändring uppdateras dataförhandsgranskningen omedelbart. Klicka på Bekräfta i det övre högra hörnet för att generera en ny transformering.

Skärmbild som visar knappen Bekräfta.

Typecast och Modify genererar en härledd kolumnomvandling och Remove genererar en Select-transformering.

Skärmbild som visar Inställningar för härledd kolumn.

Anteckning

Om du redigerar din Dataflöde måste du hämta dataförhandsgranskningen igen innan du lägger till en snabbomvandling.

Dataprofilering

Om du väljer en kolumn på fliken dataförhandsgranskning och klickar på Statistik i verktygsfältet för dataförhandsgranskning visas ett diagram längst till höger i datarutnätet med detaljerad statistik om varje fält. Tjänsten bestämning baseras på datasampling av vilken typ av diagram som ska visas. Fält med hög kardinalitet är standardvärdet NULL/NOT NULL-diagram medan kategoriska och numeriska data med låg kardinalitet visar stapeldiagram som visar datavärdesfrekvens. Du ser även maximal/len längd på strängfält, min/max-värden i numeriska fält, standardutveckling, percentiler, antal och medelvärde.

Kolumnstatistik

Nästa steg