Delen via


Handleiding voor prestaties en schaalbaarheid van kopieeractiviteit

Soms wilt u een grootschalige gegevensmigratie uitvoeren van Data Lake of Enterprise Data Warehouse (EDW) naar Fabric OneLake. Andere keren wilt u grote hoeveelheden gegevens opnemen, uit verschillende bronnen in Fabric OneLake, voor analyse van big data. In elk geval is het essentieel om optimale prestaties en schaalbaarheid te bereiken.

Data Factory-pijplijnen bieden een mechanisme voor het opnemen van gegevens, met de volgende voordelen:

  • Verwerkt grote hoeveelheden gegevens
  • Is zeer goed presterend
  • Is rendabel

Deze voordelen zijn uitstekend geschikt voor data engineers die schaalbare pijplijnen voor gegevensopname willen bouwen die zeer goed presteren.

Na het lezen van dit artikel kunt u de volgende vragen beantwoorden:

  • Welk niveau van prestaties en schaalbaarheid kan ik bereiken met behulp van kopieeractiviteit voor gegevensmigratie- en gegevensopnamescenario's?
  • Welke stappen moet ik uitvoeren om de prestaties van de kopieeractiviteit af te stemmen?
  • Welke prestatieoptimalisaties kan ik gebruiken voor één uitvoering van een kopieeractiviteit?
  • Welke andere externe factoren waarmee u rekening moet houden bij het optimaliseren van de kopieerprestaties?

De prestaties en schaalbaarheid kopiëren die mogelijk zijn met behulp van Data Factory-pijplijnen

Data Factory-pijplijnen bieden een serverloze architectuur waarmee parallelle uitvoering op verschillende niveaus mogelijk is.

Met deze architectuur kunt u pijplijnen ontwikkelen waarmee de doorvoer van gegevensverplaatsing voor uw omgeving wordt gemaximaliseerd. Deze pijplijnen maken volledig gebruik van de volgende resources:

  • Netwerkbandbreedte tussen de bron- en doelgegevensarchieven
  • Invoer-/uitvoerbewerkingen voor bron- of doelgegevensopslag per seconde (IOPS) en bandbreedte

Dit volledige gebruik betekent dat u de totale doorvoer kunt schatten door de minimale doorvoer te meten die beschikbaar is met de volgende resources:

  • Brongegevensarchief
  • Doelgegevensarchief
  • Netwerkbandbreedte tussen de bron- en doelgegevensarchieven

Kopiëren is schaalbaar op verschillende niveaus:

  • Controlestroom kan meerdere kopieeractiviteiten parallel starten, bijvoorbeeld met Voor elke lus.
  • Eén kopieeractiviteit kan profiteren van schaalbare rekenresources.
    • U kunt de optimalisatie van intelligente doorvoer opgeven tot een maximum voor elke kopieeractiviteit, op een serverloze manier.
  • Eén kopieeractiviteit leest van en schrijft naar het gegevensarchief met behulp van meerdere threads parallel.

Functies voor het optimaliseren van prestaties kopiëren

De service biedt de volgende functies voor prestatieoptimalisatie:

Intelligente doorvoeroptimalisatie

Dankzij intelligente doorvoeroptimalisatie kan de service de doorvoer intelligent optimaliseren door de factoren van CPU-, geheugen- en netwerkresourcetoewijzing en verwachte kosten voor het uitvoeren van één kopieeractiviteit te combineren. De toegestane opties voor het intelligent uitvoeren van een kopieeractiviteit zijn Auto, Standard, Balanced, Maximum. U kunt ook de waarde tussen 4 en 256 opgeven.

De volgende tabel bevat de aanbevolen waarde in verschillende kopieerscenario's:

Weergegeven als Beschrijving
Auto Sta de service toe om dynamisch de optimale doorvoeroptimalisatie toe te passen op basis van uw brondoelpaar en gegevenspatroon.
Standaard Sta de service toe om de doorvoeroptimalisatie dynamisch toe te passen onder standaard rekenresources op basis van uw brondoelpaar en gegevenspatroon.
Evenwichtig Sta de service toe om doorvoeroptimalisatie dynamisch toe te passen, waarmee de doorvoer en beschikbare rekenresources worden afgestemd op basis van uw brondoelpaar en gegevenspatroon.
Maximum Sta de service toe om de doorvoeroptimalisatie dynamisch toe te passen door gebruik te maken van de maximaal beschikbare rekenresources op basis van uw brondoelpaar en gegevenspatroon.

Parallelle kopie

U kunt de instelling 'Mate van kopieerparallelisme' instellen op het tabblad Instellingen van de Copy-activiteit om aan te geven welke parallelle uitvoering u wilt gebruiken voor de kopieeractiviteit. U kunt deze eigenschap beschouwen als het maximum aantal threads binnen de kopieeractiviteit. De threads werken parallel. De threads lezen uit uw bron of schrijven naar uw doelgegevensarchieven.

De parallelle kopie is orthogonaal voor de instelling voor intelligente doorvoeroptimalisatie. Voor elke uitvoering van de kopieeractiviteit past de service standaard de optimale instelling voor parallelle kopieerbewerkingen toe op basis van uw bron-doelpaar en gegevenspatroon.

Als u de belasting wilt beheren op computers waarop uw gegevensarchieven worden gehost of om de kopieerprestaties af te stemmen, kunt u de standaardwaarde overschrijven en een waarde opgeven voor de mate van kopieerparallelisme. De waarde moet een geheel getal groter dan of gelijk aan 1 zijn. Tijdens runtime gebruikt de kopieeractiviteit voor de beste prestaties een waarde die kleiner is dan of gelijk is aan de waarde die u hebt ingesteld.