Gegevensstromen in Azure Synapse Analytics

Wat zijn gegevensstromen?

Gegevensstromen zijn visueel ontworpen gegevenstransformaties in Azure Synapse Analytics. Met gegevensstromen kunnen data engineers logica voor gegevenstransformatie ontwikkelen zonder code te schrijven. De resulterende gegevensstromen worden uitgevoerd als activiteiten binnen Azure Synapse Analytics-pijplijnen die gebruikmaken van uitgeschaalde Apache Spark-clusters. Gegevensstroomactiviteiten kunnen worden uitgevoerd met behulp van bestaande plannings-, controle-, stroom- en bewakingsmogelijkheden van Azure Synapse Analytics.

Gegevensstromen bieden een volledig visuele ervaring zonder codering. Uw gegevensstromen worden uitgevoerd op door Synapse beheerde uitvoeringsclusters voor uitgeschaalde gegevensverwerking. Azure Synapse Analytics verwerkt alle codevertaling, padoptimalisatie en uitvoering van uw gegevensstroomtaken.

Aan de slag

Gegevensstromen worden gemaakt vanuit het deelvenster Ontwikkelen in Synapse Studio. Als u een gegevensstroom wilt maken, selecteert u het plusteken naast Ontwikkelen en selecteert u vervolgens Gegevensstroom.

Nieuwe gegevensstroom

Met deze actie gaat u naar het gegevensstroomcanvas, waar u de transformatielogica kunt maken. Selecteer Bron toevoegen om de brontransformatie te configureren. Zie Brontransformatie voor meer informatie.

Gegevensstromen ontwerpen

Gegevensstroom heeft een uniek ontwerpcanvas dat is ontworpen om het bouwen van transformatielogica eenvoudig te maken. Het gegevensstroomcanvas is onderverdeeld in drie delen: de bovenste balk, de grafiek en het configuratiepaneel.

Schermopname van het gegevensstroomcanvas met de bovenste balk, grafiek en configuratiepaneel gelabeld.

Graph

In de grafiek wordt de transformatiestroom weergegeven. Het toont de herkomst van brongegevens wanneer deze in een of meer sinks stromen. Als u een nieuwe bron wilt toevoegen, selecteert u Bron toevoegen. Als u een nieuwe transformatie wilt toevoegen, selecteert u het plusteken in de rechterbenedenhoek van een bestaande transformatie. Meer informatie over het beheren van de gegevensstroomgrafiek.

Schermopname van het grafiekgedeelte van het canvas met een tekstvak Zoeken.

Configuratiepaneel

In het configuratievenster worden de instellingen weergegeven die specifiek zijn voor de momenteel geselecteerde transformatie. Als er geen transformatie is geselecteerd, wordt de gegevensstroom weergegeven. In de configuratie van de algemene gegevensstroom kunt u parameters toevoegen via het tabblad Parameters . Zie Gegevensstroomparameters voor meer informatie.

Elke transformatie bevat ten minste vier configuratietabbladen.

Transformatie-instellingen

Het eerste tabblad in het configuratievenster van elke transformatie bevat de instellingen die specifiek zijn voor die transformatie. Zie de documentatiepagina van die transformatie voor meer informatie.

Tabblad Broninstellingen

Optimaliseren

Het tabblad Optimaliseren bevat instellingen voor het configureren van partitieschema's. Zie de prestatiehandleiding voor toewijzingsgegevensstromen voor meer informatie over het optimaliseren van uw gegevensstromen.

Schermopname van het tabblad Optimaliseren

Inspecteren

Het tabblad Controleren biedt een overzicht van de metagegevens van de gegevensstroom die u wilt transformeren. U kunt het aantal kolommen, de gewijzigde kolommen, de toegevoegde kolommen, gegevenstypen, de kolomvolgorde en kolomverwijzingen bekijken. Inspect is een alleen-lezenweergave van uw metagegevens. U hoeft de foutopsporingsmodus niet te hebben ingeschakeld om metagegevens te zien in het deelvenster Controleren .

Tabblad Inspecteren

Wanneer u de vorm van uw gegevens wijzigt via transformaties, ziet u de stroom metagegevenswijzigingen in het deelvenster Controleren . Als uw brontransformatie geen gedefinieerd schema bevat, zijn metagegevens niet zichtbaar in het deelvenster Controleren . Het ontbreken van metagegevens komt vaak voor in scenario's met schemadrift.

Voorbeeld van gegevens

Als de foutopsporingsmodus is ingeschakeld, biedt het tabblad Gegevensvoorbeeld u een interactieve momentopname van de gegevens bij elke transformatie. Zie Voorbeeld van gegevens in foutopsporingsmodus voor meer informatie.

Bovenste balk

De bovenste balk bevat acties die van invloed zijn op de hele gegevensstroom, zoals validatie- en foutopsporingsinstellingen. U kunt ook de onderliggende JSON-code en het gegevensstroomscript van uw transformatielogica bekijken.

Beschikbare transformaties

Bekijk het overzicht van transformatie van toewijzingsgegevensstromen om een lijst met beschikbare transformaties op te halen.

Gegevensstroomactiviteit

Gegevensstromen worden ge operationaliseerd binnen Azure Synapse Analytics-pijplijnen met behulp van de gegevensstroomactiviteit. Een gebruiker hoeft alleen maar op te geven welke Integration Runtime moet worden gebruikt en welke parameterwaarden moeten worden doorgegeven. Meer informatie over de Azure-integratieruntime voor meer informatie.

Foutopsporingsmodus

Met de foutopsporingsmodus kunt u interactief de resultaten van elke transformatiestap bekijken terwijl u uw gegevensstromen bouwt en fouten opspoort. De foutopsporingssessie kan zowel worden gebruikt bij het bouwen van uw gegevensstroomlogica als bij het uitvoeren van pijplijnfoutopsporingsuitvoeringen met gegevensstroomactiviteiten. Zie de documentatie over de foutopsporingsmodus voor meer informatie.

Gegevensstromen bewaken

De gegevensstroom kan worden geïntegreerd met bestaande bewakingsmogelijkheden van Azure Synapse Analytics. Zie Toewijzingsgegevensstromen bewaken voor meer informatie over de uitvoer van gegevensstroombewaking.

Het Azure Synapse Analytics-team heeft een handleiding voor het afstemmen van prestaties gemaakt om u te helpen de uitvoeringstijd van uw gegevensstromen te optimaliseren na het bouwen van uw bedrijfslogica.

Volgende stappen