Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Návod
Hledáte snadný způsob, jak přesunout data? Úloha kopírování v Microsoft Fabric nabízí jednoduchý a škálovatelný způsob načítání dat, aniž by bylo nutné vytvářet datový kanál. Zjistěte, jak ho vytvořit.
V kanálech Azure Data Factory a Synapse můžete pomocí aktivita Copy kopírovat data mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete pomocí dalších aktivit data data dále transformovat a analyzovat. Pomocí aktivity Kopírování můžete také publikovat výsledky transformace a analýzy pro business intelligence (BI) a užití v aplikacích.
Aktivita Copy se spustí v prostředí Integration Runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:
- Při kopírování dat mezi dvěma úložišti dat, která jsou veřejně přístupná přes internet z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration Runtime. Tento prostředí Integration Runtime je zabezpečené, spolehlivé, škálovatelné a globálně dostupné.
- Při kopírování dat do a z úložišť dat, která se nacházejí místně nebo v síti s řízením přístupu (například virtuální síť Azure), musíte nastavit místní prostředí Integration Runtime.
Prostředí Integration Runtime musí být přidruženo ke každému zdrojovému a cílovému úložišti dat. Informace o tom, jak aktivita Copy určuje, které prostředí Integration Runtime se má použít, najdete v tématu Určení, které prostředí IR se má použít.
Poznámka:
Ve stejné aktivitě kopírování nemůžete použít více než jedno lokálně hostované integrační prostředí. Zdroj a jímka aktivity musí být připojené ke stejnému místnímu prostředí Integration Runtime.
Pokud chcete kopírovat data ze zdroje do jímky, služba, která spouští aktivita Copy provádí tyto kroky:
- Čte data ze zdrojového úložiště dat.
- Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provádí tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivitě Copy.
- Zapisuje data do cílového úložiště dat.
Poznámka:
Pokud se lokálně hostovaný Integration Runtime používá ve zdrojovém úložišti dat nebo v cílovém úložišti dat v rámci aktivity zkopírování, musí být zdroj i cíl přístupné ze serveru, který hostí prostředí Integration Runtime, aby byla aktivita zkopírování úspěšná.
Podporovaná úložiště a formáty dat
Poznámka:
Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.
Podporované formáty souborů
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Formát textu s oddělovači
- Formát aplikace Excel
- Iceberg format (pouze pro Azure Data Lake Storage Gen2)
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Pomocí aktivita Copy můžete kopírovat soubory tak, jak jsou mezi dvěma souborovými úložišti dat, v takovém případě se data kopírují efektivně bez serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:
- Zkopírujte data z databáze SQL Serveru a zapište je do Azure Data Lake Storage Gen2 ve formátu Parquet.
- Kopírování souborů v textovém formátu (CSV) z místního systému souborů a zápis do úložiště objektů blob v Azure ve formátu Avro
- Zkopírujte komprimované soubory z místního systému souborů, dekomprimujte je průběžně a zapisujte extrahované soubory do Azure Data Lake Storage Gen2.
- Zkopírujte data ve formátu Gzip s komprimovaným textem (CSV) ze služby Azure Blob Storage a zapište je do služby Azure SQL Database.
- Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.
Podporované oblasti
Služba, která umožňuje aktivita Copy, je dostupná globálně v oblastech a geografických oblastech uvedených v umístěních prostředí Azure Integration Runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle zabraňuje přesunům mezi oblastmi. Informace o dostupnosti pracovních prostorů Data Factory, Pracovních prostorů Synapse a přesunu dat v konkrétní oblasti najdete v produktech podle oblastí .
Konfigurace
K provedení aktivity kopírování pomocí datového kanálu můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Šablona Azure Resource Manageru
Obecně platí, že pokud chcete použít tuto aktivitu kopírování v kanálech Azure Data Factory nebo Synapse, musíte:
- Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části Podporované úložiště dat a formáty tohoto článku. Informace o konfiguraci a podporované vlastnosti najdete v části "Vlastnosti propojené služby" v článku o konektoru.
- Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporované vlastnosti najdete v částech "Vlastnosti datové sady" článků o konektoru zdroje a jímky.
- Vytvořte potrubí s aktivitou kopírování. Následující část obsahuje příklad.
Syntaxe
Následující šablona činnosti Copy obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které odpovídají vašemu scénáři.
"activities":[
{
"name": "CopyActivityTemplate",
"type": "Copy",
"inputs": [
{
"referenceName": "<source dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<sink dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>",
<properties>
},
"sink": {
"type": "<sink type>"
<properties>
},
"translator":
{
"type": "TabularTranslator",
"columnMappings": "<column mapping>"
},
"dataIntegrationUnits": <number>,
"parallelCopies": <number>,
"enableStaging": true/false,
"stagingSettings": {
<properties>
},
"enableSkipIncompatibleRow": true/false,
"redirectIncompatibleRowSettings": {
<properties>
}
}
}
]
Podrobnosti o syntaxi
| Vlastnost | Popis | Povinné? |
|---|---|---|
| typ | U aktivity Copy nastavte Copy |
Ano |
| vstupy | Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita Copy podporuje pouze jeden vstup. | Ano |
| výstupy | Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita Copy podporuje pouze jeden výstup. | Ano |
| typVlastnosti | Zadejte vlastnosti pro konfiguraci kopírovací aktivity. | Ano |
| odeslat k provedení | Zadejte typ zdroje kopírování a odpovídající vlastnosti pro načítání dat. Další informace najdete v části „Vlastnosti aktivity Copy“ v článku o konektoru uvedeném v podporovaných úložištích a formátech dat. |
Ano |
| jímka | Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat. Další informace najdete v části „Vlastnosti aktivity Copy“ v článku o konektoru uvedeném v podporovaných úložištích a formátech dat. |
Ano |
| překladatel | Zadejte explicitní mapování sloupců ze zdroje na jímku. Tato vlastnost platí, když výchozí chování kopírování nevyhovuje vašim potřebám. Další informace naleznete v tématu Mapování schématu v aktivitě kopírování. |
Ne |
| jednotky pro integraci dat | Zadejte míru, která představuje výkon, který prostředí Azure Integration Runtime používá pro kopírování dat. Tyto jednotky se dříve označovaly jako jednotky pro přesun dat v cloudu (DMU). Další informace naleznete v tématu Jednotky pro integraci dat. |
Ne |
| paralelní kopie | Zadejte paralelismus, který má aktivita Copy použít při čtení dat ze zdroje a zápisu dat do jímky. Další informace naleznete v tématu Paralelní kopírování. |
Ne |
| zachovat | Určete, jestli se mají během kopírování dat zachovat metadata nebo seznamy ACL. Další informace najdete v tématu Zachování metadat. |
Ne |
| UmožnitStaging stagingSettings |
Určete, zda chcete uložit dočasná data v úložišti objektů Blob namísto přímého kopírování dat ze zdroje do cíle. Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Fázovaná kopie. |
Ne |
| povolitPřeskočeníNekompatibilníhoŘádku přesměrováníNekompatibilníchNastaveníŘádku |
Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky. Další informace naleznete v tématu Odolnost proti chybám. |
Ne |
Sledování
Aktivitu kopírování spuštěnou ve pipelinech Azure Data Factory a Synapse můžete monitorovat vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.
Přírůstková kopie
Kanály Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do cílového úložiště dat. Podrobnosti najdete v kurzu Přírůstkové kopírování dat.
Výkon a ladění
Prostředí pro monitorování aktivit kopírování ukazuje statistiky výkonu kopírování pro každou z vašich aktivit. Průvodce výkonem a škálovatelností Copy aktivity popisuje klíčové faktory, které ovlivňují výkon přesunu dat pomocí Copy aktivity. Uvádí také hodnoty výkonu pozorované během testování a způsoby optimalizace výkonu kopírovací aktivity.
Obnovit z posledního neúspěšného spuštění
Aktivita kopírování podporuje obnovení z posledního neúspěšného spuštění při kopírování velké velikosti souborů v nezměněné podobě s binárním formátem mezi úložišti založenými na souborech a při volbě zachování hierarchie složek a souborů ze zdroje do cíle, například pro migraci dat z Amazon S3 do Azure Data Lake Storage Gen2. Platí pro následující konektory založené na souborech: Amazon S3, Amazon S3 Compatible StorageAzure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.
Akci obnovení kopírování můžete použít následujícími dvěma způsoby:
Opakování na úrovni aktivity: Počet opakování můžete nastavit u aktivity kopírování. Pokud se tato aktivita kopírování během provádění kanálu nezdaří, spustí se další automatické opakování z bodu selhání poslední zkušební verze.
Opětovné spuštění z neúspěšné aktivity: Po dokončení spuštění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšná aktivita aktivitou kopírování, pipelina nejenže znovu spustí tuto aktivitu, ale také obnoví z bodu selhání předchozího spuštění.
Několik bodů k poznámce:
- Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování při kopírování souboru selže, při dalším spuštění bude tento konkrétní soubor znovu zkopírován.
- Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi opakovaným spuštěním.
- Při kopírování dat z Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u ostatních konektorů založených na souborech, které slouží jako zdroje, aktuálně aktivita kopírování podporuje obnovení z omezeného počtu souborů. Tento počet je obvykle v rozsahu desítek tisíc a může se lišit v závislosti na délce cest k souborům. Soubory přesahující tuto hodnotu budou při opětovném spuštění znovu zkopírovány.
V případě jiných scénářů než kopírování binárních souborů se aktivita kopírování spustí znovu od začátku.
Poznámka:
Obnovení z posledního neúspěšného spuštění prostřednictvím místního prostředí Integration Runtime se teď podporuje pouze v místním prostředí Integration Runtime verze 5.43.8935.2 nebo novější.
Zachování metadat spolu s daty
Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data Lake, zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.
Přidání značek metadat do cílového úložiště založeného na souborech
Když je jímka založená na službě Azure Storage (Azure Data Lake Storage nebo Azure Blob Storage), můžeme se rozhodnout přidat do souborů určitá metadata. Tato metadata se zobrazí jako součást vlastností souboru jako páry klíč-hodnota. Pro všechny typy datových úložišť založených na souborech můžete přidat metadata zahrnující dynamický obsah pomocí parametrů pipeline, systémových proměnných, funkcí a proměnných. Kromě toho máte pro datovou jímku založenou na binárních souborech možnost přidat datum a čas poslední změny (zdrojového souboru) pomocí klíčového slova $$LASTMODIFIED a vlastní hodnoty jako metadata do souboru jímky.
Mapování schématu a datového typu
Podívejte se na mapování schématu a datového typu a zjistěte, jak aktivita Copy mapuje zdrojová data na cílové úložiště.
Přidání dalších sloupců během kopírování
Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších datových sloupců pro kopírování do jímky. Příklad:
- Při kopírování ze souborového zdroje uložte relativní cestu k souboru jako další sloupec typu Řetězec, abyste mohli sledovat, ze kterého souboru data pocházejí.
- Duplikujte zadaný zdrojový sloupec jako jiný sloupec.
- Přidejte sloupec s výrazem ADF pro připojení systémových proměnných ADF, jako je název kanálu nebo ID kanálu, nebo uložte jinou dynamickou hodnotu z výstupu nadřazené aktivity.
- Přidejte sloupec se statickou hodnotou, aby vyhovoval vašim potřebám podřízené spotřeby.
Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Tyto další sloupce v mapování schématu aktivity kopírování můžete také namapovat obvyklým způsobem pomocí definovaných názvů sloupců.
Návod
Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.
Pokud ho chcete nakonfigurovat programově, přidejte additionalColumns vlastnost do zdroje aktivity kopírování:
| Vlastnost | Popis | Povinné |
|---|---|---|
| další sloupce | Přidejte další datové sloupce pro kopírování do jímky. Každý objekt pod additionalColumns polem představuje další sloupec. Definuje name název sloupce a value označuje hodnotu dat daného sloupce.Povolené datové hodnoty jsou: - $$FILEPATH – Rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souborech.- $$COLUMN:<source_column_name> – vzor rezervované proměnné označuje duplikování zadaného zdrojového sloupce jako jiného sloupce.- Výraz - Statická hodnota |
Ne |
Příklad:
"activities":[
{
"name": "CopyWithAdditionalColumns",
"type": "Copy",
"inputs": [...],
"outputs": [...],
"typeProperties": {
"source": {
"type": "<source type>",
"additionalColumns": [
{
"name": "filePath",
"value": "$$FILEPATH"
},
{
"name": "newColName",
"value": "$$COLUMN:SourceColumnA"
},
{
"name": "pipelineName",
"value": {
"value": "@pipeline().Pipeline",
"type": "Expression"
}
},
{
"name": "staticValue",
"value": "sampleValue"
}
],
...
},
"sink": {
"type": "<sink type>"
}
}
}
]
Návod
Po nakonfigurování dalších sloupců nezapomeňte je namapovat na cílovou jímku na kartě Mapování.
Automatické vytváření tabulek jímky
Pokud kopírujete data do databáze SQL nebo Azure Synapse Analytics a cílová tabulka neexistuje, aktivita kopírování podporuje její automatické vytvoření na základě zdrojových dat. Cílem je pomoct vám rychle začít načítat data a vyhodnocovat databáze SQL nebo Azure Synapse Analytics. Po příjmu dat můžete schéma tabulky jímky zkontrolovat a upravit podle svých potřeb.
Tato funkce je podporována při kopírování dat z jakéhokoli zdroje do následujících cílových úložišť dat. Možnost najdete v uživatelském rozhraní pro autorské práce ADF ->jímce aktivity Copy ->Table option ->Auto create table, nebo prostřednictvím tableOption vlastnosti v datové části jímky aktivity Copy.
Odolnost proti chybám
Ve výchozím nastavení aktivita Copy zastaví kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování proběhlo úspěšně, můžete nakonfigurovat aktivita Copy tak, aby přeskočí nekompatibilní řádky a zkopírovala jenom kompatibilní data. Podrobnosti naleznete v části Odolnost proti chybám při kopírovací aktivitě.
Ověření konzistence dat
Při přesunu dat ze zdroje do cílového úložiště poskytuje aktivita kopírování možnost provést dodatečné ověření konzistence dat, aby se zajistilo, že se data nejen úspěšně zkopírují ze zdroje do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Po nalezení nekonzistentních souborů během přesunu dat můžete buď přerušit aktivitu kopírování, nebo pokračovat ve kopírování zbytku tím, že povolíte nastavení odolnosti proti chybám a přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.
Záznam relace
Můžete protokolovat zkopírované názvy souborů, což vám pomůže zajistit nejen úspěšné zkopírování dat ze zdroje do cílového úložiště, ale také jejich konzistenci mezi zdrojovým a cílovým úložištěm prostřednictvím kontroly protokolů relace aktivit kopírování. Podrobnosti najdete v části Aktivita kopírování přihlášení k relaci.
Související obsah
Projděte si následující rychlé starty, kurzy a ukázky: