Gegevensstromen gebruiken in pijplijnen
Bij het bouwen van complexe pijplijnen met meerdere gegevensstromen kan uw logische stroom een grote invloed hebben op timing en kosten. In deze sectie wordt de impact van verschillende architectuurstrategieën behandeld.
Gegevensstromen parallel uitvoeren
Als u meerdere gegevensstromen parallel uitvoert, draait de service afzonderlijke Spark-clusters voor elke activiteit. Hierdoor kan elke taak parallel worden geïsoleerd en uitgevoerd, maar leidt dit tot meerdere clusters die tegelijkertijd worden uitgevoerd.
Als uw gegevensstromen parallel worden uitgevoerd, wordt u aangeraden de Azure IR-tijd niet in te schakelen voor de live-eigenschap, omdat deze leidt tot meerdere ongebruikte warme pools.
Tip
In plaats van dezelfde gegevensstroom meerdere keren in een activiteit uit te voeren, faseert u uw gegevens in een data lake en gebruikt u jokertekenpaden om de gegevens in één gegevensstroom te verwerken.
Gegevensstromen sequentieel uitvoeren
Als u uw gegevensstroomactiviteiten op volgorde uitvoert, is het raadzaam om een TTL in te stellen in de Azure IR-configuratie. De service hergebruikt de rekenresources, wat resulteert in een snellere opstarttijd van het cluster. Elke activiteit is nog steeds geïsoleerd en ontvangt een nieuwe Spark-context voor elke uitvoering.
Overbelasting van één gegevensstroom
Als u al uw logica in één gegevensstroom plaatst, voert de service de hele taak uit op één Spark-exemplaar. Hoewel dit misschien een manier lijkt om de kosten te verlagen, combineert het verschillende logische stromen en kan het lastig zijn om te controleren en fouten op te sporen. Als één onderdeel mislukt, mislukken alle andere onderdelen van de taak ook. Het wordt aanbevolen om gegevensstromen te ordenen op basis van onafhankelijke bedrijfslogica. Als uw gegevensstroom te groot wordt, maakt het splitsen ervan in afzonderlijke onderdelen het bewaken en opsporen van fouten eenvoudiger. Hoewel er geen vaste limiet is voor het aantal transformaties in een gegevensstroom, wordt de taak te veel complex.
Sinks parallel uitvoeren
Het standaardgedrag van gegevensstroomsinks is het sequentieel uitvoeren van elke sink, op een seriële manier en het mislukken van de gegevensstroom wanneer er een fout optreedt in de sink. Bovendien worden alle sinks standaard ingesteld op dezelfde groep, tenzij u naar de eigenschappen van de gegevensstroom gaat en verschillende prioriteiten voor de sinks instelt.
Met gegevensstromen kunt u sinks groeperen in groepen op het tabblad Eigenschappen van de gegevensstroom in de ontwerpfunctie voor gebruikersinterfaces. U kunt beide de volgorde van de uitvoering van uw sinks instellen en sinks groeperen met hetzelfde groepsnummer. Als u groepen wilt beheren, kunt u de service vragen om sinks in dezelfde groep uit te voeren om parallel te worden uitgevoerd.
Voer in de pijplijn gegevensstroomactiviteit uit onder de sectie Sinkeigenschappen om parallel sink laden in te schakelen. Wanneer u 'parallel uitvoeren' inschakelt, geeft u gegevensstromen de opdracht om tegelijkertijd naar verbonden sinks te schrijven in plaats van op een sequentiële manier. Als u de parallelle optie wilt gebruiken, moeten de sinks worden gegroepeerd en verbonden met dezelfde stroom via een nieuwe vertakking of voorwaardelijke splitsing.
Toegang tot Azure Synapse-databasesjablonen in pijplijnen
U kunt een Azure Synapse-databasesjabloon gebruiken bij het maken van een pijplijn. Wanneer u een nieuwe gegevensstroom maakt, selecteert u werkruimte-DB in de bron- of sinkinstellingen. In de vervolgkeuzelijst voor de database worden de databases weergegeven die zijn gemaakt via de databasesjabloon. De optie Werkruimtedatabase is alleen beschikbaar voor nieuwe gegevensstromen. Deze optie is niet beschikbaar wanneer u een bestaande pijplijn uit de Synapse Studio-galerie gebruikt.
Gerelateerde inhoud
- Overzicht van prestaties van gegevensstromen
- Bronnen optimaliseren
- Sinks optimaliseren
- Transformaties optimaliseren
Zie andere Gegevensstroom artikelen met betrekking tot prestaties: