Kopieeractiviteit bewaken

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel wordt beschreven hoe u de uitvoering van kopieeractiviteiten in Azure Data Factory- en Synapse-pijplijnen kunt bewaken. Het is gebaseerd op het artikel over het overzicht van kopieeractiviteiten met een algemeen overzicht van de kopieeractiviteit. U kunt ook kopieeractiviteiten bewaken die zijn gegenereerd met het hulpprogrammaVoor kopiëren en verwijderen met behulp van dezelfde methode.

Visueel bewaken

Nadat u een pijplijn hebt gemaakt en gepubliceerd, kunt u deze koppelen aan een trigger of handmatig een ad-hocuitvoering starten. U kunt al uw pijplijnuitvoeringen systeemeigen bewaken in de gebruikerservaring. Meer informatie over bewaking in het algemeen vanuit Visually Monitor Azure Data Factory en Synapse-pijplijnen.

Als u de Copy-activiteit wilt bewaken, gaat u naar de Data Factory Studio- of Azure Synapse Studio-gebruikersinterface voor uw service-exemplaar. Op het tabblad Controleren ziet u een lijst met pijplijnuitvoeringen en klikt u op de koppeling naar de naam van de pijplijn om toegang te krijgen tot de lijst met activiteitsuitvoeringen in de pijplijnuitvoering.

Op dit niveau ziet u koppelingen naar de invoer, uitvoer en fouten van de kopieeractiviteit (als de Copy-activiteit uitvoering mislukt), evenals statistieken zoals duur/status. Als u op de knop Details (bril) naast de naam van de kopieeractiviteit klikt, krijgt u gedetailleerde informatie over de uitvoering van de kopieeractiviteit.

Monitor copy activity run

In deze grafische bewakingsweergave geeft de service u de uitvoeringsinformatie over de kopieeractiviteit weer, waaronder het gelezen/geschreven volume van gegevens, het aantal bestanden/rijen met gegevens dat is gekopieerd van de bron naar de sink, doorvoer, de configuraties die zijn toegepast voor uw kopieerscenario, stappen die de kopieeractiviteit doorloopt met bijbehorende duur en details, en meer. Raadpleeg deze tabel voor elke mogelijke metrische waarde en de gedetailleerde beschrijving ervan.

Wanneer u in sommige scenario's een Copy-activiteit uitvoert, ziet u 'Tips voor het afstemmen van prestaties' boven aan de weergave voor het bewaken van kopieeractiviteiten, zoals wordt weergegeven in het voorbeeld. De tips vertellen u het knelpunt dat is geïdentificeerd door de service voor de specifieke kopieeruitvoering, samen met suggesties voor wat u kunt wijzigen om de kopieerdoorvoer te verbeteren. Meer informatie over tips voor het afstemmen van automatische prestaties.

In de onderste uitvoeringsdetails en duur worden de belangrijkste stappen beschreven die uw kopieeractiviteit doorloopt. Dit is vooral handig voor het oplossen van problemen met de kopieerprestaties. Het knelpunt van de kopieeruitvoering is het knelpunt met de langste duur. Raadpleeg de prestaties van kopieeractiviteiten oplossen voor wat elke fase vertegenwoordigt en de gedetailleerde richtlijnen voor probleemoplossing.

Voorbeeld: Kopiëren van Amazon S3 naar Azure Data Lake Storage Gen2

Monitor copy activity run details

Programmatisch bewaken

Copy-activiteit uitvoeringsdetails en prestatiekenmerken worden ook geretourneerd in de Uitvoersectie uitvoer van kopieeractiviteit>, die wordt gebruikt om de ui-bewakingsweergave weer te geven. Hieronder volgt een volledige lijst met eigenschappen die kunnen worden geretourneerd. U ziet alleen de eigenschappen die van toepassing zijn op uw kopiescenario. Zie Programmatisch een Azure Data Factory- of Synapse-pijplijn bewaken voor informatie over het bewaken van activiteitsuitvoeringen in het algemeen.

Eigenschapsnaam Beschrijving Eenheid in uitvoer
dataRead De werkelijke hoeveelheid gegevens die uit de bron worden gelezen. Int64-waarde, in bytes
dataWritten De werkelijke koppeling van gegevens die naar de sink zijn geschreven/doorgevoerd. De grootte kan afwijken van dataRead de grootte, omdat deze betrekking heeft op de manier waarop de gegevens in elk gegevensarchief worden opgeslagen. Int64-waarde, in bytes
filesRead Het aantal bestanden dat wordt gelezen uit de bron op basis van bestanden. Int64-waarde (geen eenheid)
filesWritten Het aantal bestanden dat is geschreven/vastgelegd in de sink op basis van bestanden. Int64-waarde (geen eenheid)
filesSkipped Het aantal bestanden dat is overgeslagen uit de bron op basis van bestanden. Int64-waarde (geen eenheid)
dataConsistencyVerification Details van verificatie van gegevensconsistentie, waar u kunt zien of uw gekopieerde gegevens zijn geverifieerd om consistent te zijn tussen het bron- en doelarchief. Meer informatie vindt u in dit artikel. Matrix
sourcePeak Verbinding maken ions Het piekaantal gelijktijdige verbindingen dat tot stand is gebracht met het brongegevensarchief tijdens de uitvoering van het Copy-activiteit. Int64-waarde (geen eenheid)
sinkPeak Verbinding maken ions Piekaantal gelijktijdige verbindingen tot stand gebracht met het sinkgegevensarchief tijdens de uitvoering van de Copy-activiteit. Int64-waarde (geen eenheid)
rowsRead Het aantal rijen dat uit de bron wordt gelezen. Deze metrische waarde is niet van toepassing wanneer u bestanden naar behoren kopieert zonder ze te parseren, bijvoorbeeld wanneer bron- en sinkgegevenssets een binair indelingstype zijn of een ander indelingstype met identieke instellingen. Int64-waarde (geen eenheid)
rowsCopied Aantal rijen dat naar sink is gekopieerd. Deze metrische waarde is niet van toepassing wanneer u bestanden naar behoren kopieert zonder ze te parseren, bijvoorbeeld wanneer bron- en sinkgegevenssets een binair indelingstype zijn of een ander indelingstype met identieke instellingen. Int64-waarde (geen eenheid)
rowsSkipped Aantal niet-compatibele rijen dat is overgeslagen. U kunt inschakelen dat incompatibele rijen worden overgeslagen door de instelling waar in te stellen enableSkipIncompatibleRow . Int64-waarde (geen eenheid)
copyDuration Duur van de kopieerbewerking. Int32-waarde, in seconden
doorvoer Snelheid van gegevensoverdracht, berekend door dataRead gedeeld door copyDuration. Drijvendekommagetal, in KBps
sourcePeak Verbinding maken ions Het piekaantal gelijktijdige verbindingen dat tot stand is gebracht met het brongegevensarchief tijdens de uitvoering van het Copy-activiteit. Int32-waarde (geen eenheid)
sinkPeak Verbinding maken ions Piekaantal gelijktijdige verbindingen tot stand gebracht met het sinkgegevensarchief tijdens de uitvoering van de Copy-activiteit. Int32-waarde (geen eenheid)
sqlDwPolyBase Of PolyBase wordt gebruikt wanneer gegevens worden gekopieerd naar Azure Synapse Analytics. Boolean
redshiftUnload Of UNLOAD wordt gebruikt wanneer gegevens worden gekopieerd uit Redshift. Boolean
hdfsDistcp Of DistCp wordt gebruikt wanneer gegevens worden gekopieerd uit HDFS. Boolean
effectiveIntegrationRuntime De integratieruntime (IR) of runtimes die worden gebruikt om de uitvoering van de activiteit uit te voeren, in de indeling <IR name> (<region if it's Azure IR>). Tekst (tekenreeks)
usedDataIntegrationUnits De effectieve Data-Integratie Eenheden tijdens het kopiëren. Int32-waarde
usedParallelCopies De effectieve parallellecopies tijdens het kopiëren. Int32-waarde
logPath Pad naar het sessielogboek met overgeslagen gegevens in de blobopslag. Zie Fouttolerantie. Tekst (tekenreeks)
executionDetails Meer informatie over de fasen die de Copy-activiteit doorloopt en de bijbehorende stappen, duur, configuraties, enzovoort. We raden u niet aan deze sectie te parseren, omdat deze mogelijk wordt gewijzigd. Als u meer wilt weten over hoe u de kopieerprestaties beter begrijpt en problemen kunt oplossen, raadpleegt u de sectie Visueel bewaken . Matrix
perfHerstel Tips voor het afstemmen van prestaties kopiëren. Zie tips voor het afstemmen van prestaties voor meer informatie. Matrix
billingReference Het factureringsverbruik voor de opgegeven uitvoering. Meer informatie over verbruik bewaken op activiteitsniveau. Object
durationInQueue Wachtrijduur in seconde voordat de kopieeractiviteit wordt uitgevoerd. Object

Voorbeeld:

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

Zie de andere artikelen over kopieeractiviteiten:

- overzicht van Copy-activiteit

- Copy-activiteit prestaties