Gegevensstromen in Azure Synapse Analytics
Wat zijn gegevensstromen?
Gegevensstromen zijn visueel ontworpen gegevenstransformaties in Azure Synapse Analytics. Met gegevensstromen kunnen data engineers logica voor gegevenstransformatie ontwikkelen zonder code te schrijven. De resulterende gegevensstromen worden uitgevoerd als activiteiten binnen Azure Synapse Analytics-pijplijnen die gebruikmaken van uitgeschaalde Apache Spark-clusters. Gegevensstroomactiviteiten kunnen worden uitgevoerd met behulp van bestaande plannings-, controle-, stroom- en bewakingsmogelijkheden van Azure Synapse Analytics.
Gegevensstromen bieden een volledig visuele ervaring zonder codering. Uw gegevensstromen worden uitgevoerd op door Synapse beheerde uitvoeringsclusters voor uitgeschaalde gegevensverwerking. Azure Synapse Analytics verwerkt alle codevertaling, padoptimalisatie en uitvoering van uw gegevensstroomtaken.
Aan de slag
Gegevensstromen worden gemaakt vanuit het deelvenster Ontwikkelen in Synapse Studio. Als u een gegevensstroom wilt maken, selecteert u het plusteken naast Ontwikkelen en selecteert u vervolgens Gegevensstroom.
Met deze actie gaat u naar het gegevensstroomcanvas, waar u de transformatielogica kunt maken. Selecteer Bron toevoegen om de brontransformatie te configureren. Zie Brontransformatie voor meer informatie.
Gegevensstromen ontwerpen
Gegevensstroom heeft een uniek ontwerpcanvas dat is ontworpen om het bouwen van transformatielogica eenvoudig te maken. Het gegevensstroomcanvas is onderverdeeld in drie delen: de bovenste balk, de grafiek en het configuratiepaneel.
Graph
In de grafiek wordt de transformatiestroom weergegeven. Het toont de herkomst van brongegevens wanneer deze in een of meer sinks stromen. Als u een nieuwe bron wilt toevoegen, selecteert u Bron toevoegen. Als u een nieuwe transformatie wilt toevoegen, selecteert u het plusteken in de rechterbenedenhoek van een bestaande transformatie. Meer informatie over het beheren van de gegevensstroomgrafiek.
Configuratiepaneel
In het configuratievenster worden de instellingen weergegeven die specifiek zijn voor de momenteel geselecteerde transformatie. Als er geen transformatie is geselecteerd, wordt de gegevensstroom weergegeven. In de configuratie van de algemene gegevensstroom kunt u parameters toevoegen via het tabblad Parameters . Zie Gegevensstroomparameters voor meer informatie.
Elke transformatie bevat ten minste vier configuratietabbladen.
Transformatie-instellingen
Het eerste tabblad in het configuratievenster van elke transformatie bevat de instellingen die specifiek zijn voor die transformatie. Zie de documentatiepagina van die transformatie voor meer informatie.
Optimaliseren
Het tabblad Optimaliseren bevat instellingen voor het configureren van partitieschema's. Zie de prestatiehandleiding voor toewijzingsgegevensstromen voor meer informatie over het optimaliseren van uw gegevensstromen.
Inspecteren
Het tabblad Controleren biedt een overzicht van de metagegevens van de gegevensstroom die u wilt transformeren. U kunt het aantal kolommen, de gewijzigde kolommen, de toegevoegde kolommen, gegevenstypen, de kolomvolgorde en kolomverwijzingen bekijken. Inspect is een alleen-lezenweergave van uw metagegevens. U hoeft de foutopsporingsmodus niet te hebben ingeschakeld om metagegevens te zien in het deelvenster Controleren .
Wanneer u de vorm van uw gegevens wijzigt via transformaties, ziet u de stroom metagegevenswijzigingen in het deelvenster Controleren . Als uw brontransformatie geen gedefinieerd schema bevat, zijn metagegevens niet zichtbaar in het deelvenster Controleren . Het ontbreken van metagegevens komt vaak voor in scenario's met schemadrift.
Voorbeeld van gegevens
Als de foutopsporingsmodus is ingeschakeld, biedt het tabblad Gegevensvoorbeeld u een interactieve momentopname van de gegevens bij elke transformatie. Zie Voorbeeld van gegevens in foutopsporingsmodus voor meer informatie.
Bovenste balk
De bovenste balk bevat acties die van invloed zijn op de hele gegevensstroom, zoals validatie- en foutopsporingsinstellingen. U kunt ook de onderliggende JSON-code en het gegevensstroomscript van uw transformatielogica bekijken.
Beschikbare transformaties
Bekijk het overzicht van transformatie van toewijzingsgegevensstromen om een lijst met beschikbare transformaties op te halen.
Gegevensstroomactiviteit
Gegevensstromen worden ge operationaliseerd binnen Azure Synapse Analytics-pijplijnen met behulp van de gegevensstroomactiviteit. Een gebruiker hoeft alleen maar op te geven welke Integration Runtime moet worden gebruikt en welke parameterwaarden moeten worden doorgegeven. Meer informatie over de Azure-integratieruntime voor meer informatie.
Foutopsporingsmodus
Met de foutopsporingsmodus kunt u interactief de resultaten van elke transformatiestap bekijken terwijl u uw gegevensstromen bouwt en fouten opspoort. De foutopsporingssessie kan zowel worden gebruikt bij het bouwen van uw gegevensstroomlogica als bij het uitvoeren van pijplijnfoutopsporingsuitvoeringen met gegevensstroomactiviteiten. Zie de documentatie over de foutopsporingsmodus voor meer informatie.
Gegevensstromen bewaken
De gegevensstroom kan worden geïntegreerd met bestaande bewakingsmogelijkheden van Azure Synapse Analytics. Zie Toewijzingsgegevensstromen bewaken voor meer informatie over de uitvoer van gegevensstroombewaking.
Het Azure Synapse Analytics-team heeft een handleiding voor het afstemmen van prestaties gemaakt om u te helpen de uitvoeringstijd van uw gegevensstromen te optimaliseren na het bouwen van uw bedrijfslogica.
Volgende stappen
- Meer informatie over het maken van een brontransformatie.
- Meer informatie over het bouwen van uw gegevensstromen in de foutopsporingsmodus.