Monitorování aktivity kopírování

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje, jak monitorovat spouštění aktivit kopírování v kanálech Azure Data Factory a Synapse. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování. Aktivity kopírování vygenerované nástrojem pro kopírování data také aktivity odstranění můžete monitorovat pomocí stejného přístupu.

Vizuální monitorování

Jakmile vytvoříte a publikujete kanál, můžete ho přidružit k triggeru nebo ručně spustit ad hoc spuštění. V uživatelském prostředí můžete nativně monitorovat všechna spuštění kanálu. Seznamte se s monitorováním obecně z vizuálního monitorování kanálů Azure Data Factory a Synapse.

Pokud chcete monitorovat aktivita Copy spuštění, přejděte do uživatelského rozhraní služby Data Factory Studio nebo Azure Synapse Studio pro vaši instanci služby. Na kartě Monitorování se zobrazí seznam spuštění kanálu. Kliknutím na odkaz na název kanálu získáte přístup k seznamu spuštění aktivit v spuštění kanálu.

Na této úrovni můžete zobrazit odkazy na vstup aktivity kopírování, výstup a chyby (pokud aktivita Copy spuštění selže), a také statistiky, jako je doba trvání nebo stav. Kliknutím na tlačítko Podrobnosti (brýle) vedle názvu aktivity kopírování zobrazíte podrobné podrobnosti o spuštění aktivity kopírování.

Monitor copy activity run

V tomto grafickém zobrazení monitorování vám služba zobrazí informace o spuštění aktivity kopírování, včetně čtení a zápisu dat, počtu souborů nebo řádků dat zkopírovaných ze zdroje do jímky, propustnosti, konfigurace použité pro váš scénář kopírování, kroky, kterými aktivita kopírování prochází s odpovídajícími dobami trvání a podrobnostmi a dalšími informacemi. Projděte si tuto tabulku s každou možnou metrikou a jejím podrobným popisem.

V některých scénářích se při spuštění aktivita Copy v horní části zobrazení monitorování aktivit kopírování zobrazí tipy pro ladění výkonu, jak je znázorněno v příkladu. Tipy vám řeknou kritické body, které služba identifikuje pro konkrétní spuštění kopírování, spolu s návrhem, co změnit, aby se zvýšila propustnost kopírování. Přečtěte si další informace o tipech pro automatické ladění výkonu.

Podrobnosti o dolním spuštění a dobu trvání popisují klíčové kroky, kterými vaše aktivita kopírování prochází, což je užitečné zejména při řešení potíží s výkonem kopírování. Kritickým bodem spuštění kopie je ta, která má nejdelší dobu trvání. Informace o tom, co jednotlivé fáze představují, a podrobných doprovodných materiálů k řešení potíží najdete v tématu Řešení potíží s výkonem aktivity kopírování.

Příklad: Kopírování z AmazonU S3 do Azure Data Lake Storage Gen2

Monitor copy activity run details

Monitorování prostřednictvím kódu programu

aktivita Copy podrobnosti o provedení a charakteristiky výkonu se vrátí také v části Část Výstup> spuštění aktivity kopírování, která se používá k vykreslení zobrazení monitorování uživatelského rozhraní. Následuje úplný seznam vlastností, které mohou být vráceny. Zobrazí se pouze vlastnosti, které platí pro váš scénář kopírování. Informace o tom, jak monitorovat spouštění aktivit prostřednictvím kódu programu, najdete v tématu Programové monitorování kanálu služby Azure Data Factory nebo Synapse.

Název vlastnosti Popis Jednotka ve výstupu
dataRead Skutečné množství dat načtených ze zdroje Hodnota Int64 v bajtech
Psaných dat Skutečné připojení dat zapsaných/potvrzených do jímky. Velikost se může lišit od dataRead velikosti, protože souvisí s tím, jak každé úložiště dat ukládá data. Hodnota Int64 v bajtech
filesRead Počet souborů načtených ze zdroje založeného na souborech. Hodnota Int64 (bez jednotky)
soubory psané Počet zapsaných nebo potvrzených souborů do jímky založené na souborech. Hodnota Int64 (bez jednotky)
filesSkipped Počet souborů vynechaných ze zdroje založeného na souborech. Hodnota Int64 (bez jednotky)
dataConsistencyVerification Podrobnosti o ověření konzistence dat, kde můžete zjistit, jestli byla zkopírovaná data ověřena tak, aby byla konzistentní mezi zdrojovým a cílovým úložištěm. Další informace najdete v tomto článku. Pole
sourcePeak Připojení ions Maximální počet souběžných připojení vytvořených ke zdrojovému úložišti dat během aktivita Copy spuštění Hodnota Int64 (bez jednotky)
sinkPeak Připojení ions Maximální počet souběžných připojení vytvořených k úložišti dat jímky během aktivita Copy spuštění Hodnota Int64 (bez jednotky)
rowsRead Počet řádků přečtených ze zdroje Tato metrika se nepoužije při kopírování souborů bez jejich analýzy, například pokud jsou datové sady zdroje a jímky typu binárního formátu nebo jiného typu formátu se stejným nastavením. Hodnota Int64 (bez jednotky)
rowsCopied Počet řádků zkopírovaných do jímky Tato metrika se nepoužije při kopírování souborů bez jejich analýzy, například pokud jsou datové sady zdroje a jímky typu binárního formátu nebo jiného typu formátu se stejným nastavením. Hodnota Int64 (bez jednotky)
RowsSkipped Počet nekompatibilních řádků, které byly vynechány. Nekompatibilní řádky můžete povolit tak, že nastavíte enableSkipIncompatibleRow hodnotu true. Hodnota Int64 (bez jednotky)
copyDuration Doba trvání spuštění kopírování Hodnota Int32 v sekundách
Propustnost Rychlost přenosu dat vypočítaná rozdělením dataRead .copyDuration Číslo s plovoucí desetinnou čárkou v KBps
sourcePeak Připojení ions Maximální počet souběžných připojení vytvořených ke zdrojovému úložišti dat během aktivita Copy spuštění Hodnota Int32 (bez jednotky)
sinkPeak Připojení ions Maximální počet souběžných připojení vytvořených k úložišti dat jímky během aktivita Copy spuštění Hodnota Int32 (bez jednotky)
sqlDwPolyBase Určuje, jestli se PolyBase používá při kopírování dat do Azure Synapse Analytics. Boolean
redshiftUnload Určuje, jestli se funkce UNLOAD používá při kopírování dat z Redshiftu. Boolean
hdfsDistcp Určuje, jestli se distCp používá při kopírování dat z HDFS. Boolean
effectiveIntegrationRuntime Prostředí Integration Runtime (IR) nebo moduly runtime používané k napájení spuštění aktivity ve formátu <IR name> (<region if it's Azure IR>). Text (řetězec)
usedDataIntegrationUnits Efektivní Integrace Dat Jednotky během kopírování. Hodnota Int32
usedParallelCopies Efektivní parallelCopies během kopírování. Hodnota Int32
logPath Cesta k protokolu relace přeskočených dat v úložišti objektů blob Viz Odolnost proti chybám. Text (řetězec)
executionDetails Další podrobnosti o fázích, které aktivita Copy procházejí, a odpovídající kroky, doby trvání, konfigurace atd. Nedoporučujeme analyzovat tuto část, protože se může změnit. Pokud chcete lépe porozumět tomu, jak vám to pomůže pochopit a řešit potíže s výkonem kopírování, přečtěte si část Monitorování vizuálně . Pole
Příkaz perfRecommendation Tipy pro ladění výkonu kopírování Podrobnosti najdete v tipech pro ladění výkonu. Pole
billingReference Spotřeba fakturace pro dané spuštění. Přečtěte si další informace o monitorování spotřeby na úrovni spuštění aktivity. Objekt
durationInQueue Doba trvání ve frontě za sekundu před spuštěním aktivity kopírování. Objekt

Příklad:

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

Podívejte se na další články o aktivitě kopírování:

- přehled aktivita Copy

- výkon aktivita Copy