Fouten opsporen in data factory-pijplijnen

Voltooid

De vereisten en verwachtingen van klanten veranderen in relatie tot gegevensintegratie. De behoefte tussen gebruikers om iteratief hun ETL-werkstromen (Extract Transform/Load) en Extract Load/Transform (ELT) te ontwikkelen en fouten op te sporen, wordt daarom steeds belangrijker.

Azure Data Factory kan u helpen bij het bouwen en ontwikkelen van iteratieve foutopsporing in Data Factory-pijplijnen wanneer u uw oplossing voor gegevensintegratie ontwikkelt. Door een pijplijn te ontwerpen met behulp van het pijplijncanvas, kunt u uw activiteiten en pijplijnen testen met behulp van de mogelijkheid voor foutopsporing.

In Azure Data Factory hoeft u geen wijzigingen in de pijplijn of activiteiten te publiceren voordat u fouten wilt opsporen. Dit is handig in een scenario waarin u de wijzigingen wilt testen en wilt zien of deze werkt zoals verwacht voordat u ze daadwerkelijk opslaat en publiceert.

Soms wilt u geen fouten in de hele pijplijn opsporen, maar een deel van de pijplijn testen. Met een foutopsporingsuitvoering kunt u dat doen. U kunt het einde van de pijplijn testen of een onderbrekingspunt instellen. Als u dit doet in de foutopsporingsmodus, kunt u interactief de resultaten van elke stap bekijken terwijl u uw pijplijn bouwt en fouten opssport.

Fouten opsporen en een pijplijn publiceren

Wanneer u een pijplijn maakt of wijzigt die wordt uitgevoerd, ziet u de resultaten van elke activiteit op het tabblad Uitvoer van het pijplijncanvas.

Nadat een testuitvoering is voltooid en u tevreden bent met de resultaten, kunt u meer activiteiten toevoegen aan de pijplijn en doorgaan met foutopsporing op een iteratieve manier. Als u niet tevreden bent of de pijplijn niet wilt stoppen met foutopsporing, kunt u een testuitvoering annuleren terwijl deze wordt uitgevoerd. Houd er rekening mee dat door de schuifregelaar voor foutopsporing te selecteren, de pijplijn daadwerkelijk wordt uitgevoerd. Als de pijplijn bijvoorbeeld een kopieeractiviteit bevat, kopieert de testuitvoering gegevens van de bron naar de bestemming.

Een best practice is om testmappen in uw kopieeractiviteiten en andere activiteiten te gebruiken bij foutopsporing, zodat wanneer u tevreden bent met de resultaten en fouten in de pijplijn hebt opgespoord, u overschakelt naar de werkelijke mappen voor uw normale bewerkingen.

Selecteer Fouten opsporen om fouten op te sporen in de pijplijn. De status van de pijplijnuitvoering wordt weergegeven op het tabblad Uitvoer onder in het venster.

Debug slider Azure Data Factory

Output tab Azure Data Factory Debug

Als de pijplijn kan worden uitgevoerd, selecteert u Alles publiceren in de bovenste werkbalk. Met deze actie publiceert u entiteiten (gegevenssets en pijplijnen) die u hebt gemaakt met Data Factory.

Publish all changes and entities in Azure Data Factory

Wacht totdat u het gepubliceerde bericht ziet. Als u meldingen wilt zien, selecteert u het pictogram Meldingen weergeven (belpictogram) rechtsboven in de portal (belknop).

Bell button for notifications in Azure Data Factory

Foutopsporing voor gegevensstromen toewijzen

Tijdens het bouwen van toewijzings-Gegevensstroom s kunt u interactief bekijken hoe de gegevensshapes en transformaties worden uitgevoerd, zodat u fouten kunt opsporen. Als u deze functionaliteit wilt gebruiken, moet u eerst de functie 'Gegevensstroom Foutopsporing' inschakelen.

De foutopsporingssessie kan zowel worden gebruikt in Gegevensstroom ontwerpsessies als tijdens de uitvoering van pijplijnfouten in gegevensstromen. Nadat de foutopsporingsmodus is ingeschakeld, bouwt u de gegevensstroom met een actief Spark-cluster. Het Spark-cluster wordt gesloten zodra de foutopsporing is uitgeschakeld. U hebt een keuze in welke berekening u gaat gebruiken. Wanneer u een bestaand foutopsporingscluster gebruikt, vermindert dit de opstarttijd. Voor complexe of parallelle workloads wilt u echter mogelijk uw eigen Just-In-Time-cluster maken.

Aanbevolen procedures voor het opsporen van fouten in gegevensstromen zijn om de foutopsporingsmodus ingeschakeld te houden en om de bedrijfslogica in de gegevensstroom te controleren en te valideren. Door de gegevenstransformaties en shapes visueel weer te geven, kunt u de wijzigingen zien.

Als u de gegevensstroom wilt testen in een pijplijn die u hebt gemaakt, kunt u het beste de knop Foutopsporing in het pijplijnvenster gebruiken. Hoewel gegevensvoorbeeld geen gegevens schrijft, schrijft een foutopsporingsuitvoering in uw gegevensstroom gegevens, net zoals bij het opsporen van fouten in een pijplijn, naar uw sinkbestemming.

Instellingen voor foutopsporing

Zoals eerder beschreven, wordt elke foutopsporingssessie die wordt gestart vanuit de Gebruikersinterface van Azure Data Factory, beschouwd als een nieuwe sessie met een eigen Spark-cluster. Als u de sessies wilt bewaken, kunt u de bewakingsweergave voor de foutopsporingssessie gebruiken om uw foutopsporingssessies te beheren per Data Factory die is ingesteld.

Als u wilt zien of een Spark-cluster gereed is voor foutopsporing, kunt u de statusaanduiding van het cluster boven aan het ontwerpoppervlak controleren. Als het groen is, is het klaar. Als het cluster niet werd uitgevoerd tijdens het invoeren van de foutopsporingsmodus, kan de wachttijd ongeveer 5 tot 7 minuten duren, omdat de clusters moeten worden uitgevoerd.

Het is een best practice dat u, nadat u de foutopsporing hebt voltooid, de foutopsporingsmodus uitschakelt, zodat het Spark-cluster wordt beƫindigd.

Wanneer u foutopsporing uitvoert, kunt u het voorbeeld van gegevens in een gegevensstroom bewerken door Instelling voor foutopsporing te selecteren. Voorbeelden van het wijzigen van de voorbeeldweergave van gegevens kunnen een rijlimiet of bestandsbron zijn voor het geval u brontransformaties gebruikt. Wanneer u de gekoppelde faseringsservice selecteert, kunt u Azure Synapse Analytics als bron gebruiken.

Als u parameters in uw Gegevensstroom of een van de bijbehorende gegevenssets hebt, kunt u opgeven welke waarden u tijdens foutopsporing wilt gebruiken door het tabblad Parameters te selecteren. Tijdens foutopsporing zijn sinks niet vereist en worden ze genegeerd in de gegevensstroom. Als u de getransformeerde gegevens naar uw sink wilt testen en schrijven, kunt u de gegevensstroom uitvoeren vanuit een pijplijn en de foutopsporing uitvoeren vanuit de pijplijn.

Zoals eerder beschreven, is het binnen Azure Data Factory mogelijk om alleen fouten op te sporen tot een bepaald punt of een activiteit. Hiervoor kunt u een onderbrekingspunt gebruiken voor de activiteit tot aan de locatie waar u wilt testen en selecteert u Debug. De optie Foutopsporing totdat wordt weergegeven als een lege rode cirkel in de rechterbovenhoek van het element. Nadat u de optie Foutopsporing totdat hebt geselecteerd, verandert deze in een gevulde rode cirkel om aan te geven dat het onderbrekingspunt is ingeschakeld. Azure Data Factory zorgt er vervolgens voor dat de test alleen wordt uitgevoerd totdat die onderbrekingspuntactiviteit in de pijplijn wordt uitgevoerd. Deze functie is handig als u alleen een subset van de activiteiten in een pijplijn wilt testen.

In de meeste scenario's zijn de foutopsporingsfuncties in Azure Data Factory voldoende. Soms is het echter noodzakelijk om wijzigingen in een pijplijn in een gekloonde sandbox-omgeving te testen. Een use-case hiervoor is wanneer u GEparameteriseerde ETL-pijplijnen hebt die u wilt testen hoe ze zich zouden gedragen wanneer ze een bestandstoekomst activeren ten opzichte van het tumblingtijdvenster. In dit geval is het klonen van een sandbox-omgeving mogelijk geschikter.

Een goede zaak om te weten over Azure Data Factory is dat omdat het meestal alleen wordt gefactureerd door het aantal uitvoeringen, een tweede Data Factory geen extra kosten hoeft te leiden.

Uitvoeringen van foutopsporing bewaken

Als u foutopsporingsuitvoeringen wilt controleren, kunt u het uitvoertabblad controleren, maar alleen voor de meest recente uitvoering die is opgetreden in de browsersessie, omdat de geschiedenis niet wordt weergegeven. Als u de geschiedenis van foutopsporingsuitvoeringen wilt bekijken of alle actieve foutopsporingsuitvoeringen wilt bekijken, kunt u naar het tabblad Monitor gaan.

Houd er rekening mee dat de Azure Data Factory-service slechts 15 dagen de uitvoeringsgeschiedenis voor foutopsporing bewaart. Met betrekking tot het bewaken van foutopsporingssessies voor uw gegevensstroom, gaat u ook naar het tabblad Monitor .

Monitoring debug run Azure Data Factory