aktivita Copy ve službě Azure Data Factory a Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V kanálech Azure Data Factory a Synapse můžete pomocí aktivita Copy kopírovat data mezi úložišti dat umístěnými místně a v cloudu. Po zkopírování dat můžete pomocí dalších aktivit data data dále transformovat a analyzovat. Pomocí aktivita Copy můžete také publikovat výsledky transformace a analýzy pro business intelligence (BI) a spotřebu aplikací.

The role of the Copy activity

Aktivita Copy se spustí v prostředí Integration Runtime. Pro různé scénáře kopírování dat můžete použít různé typy prostředí Integration Runtime:

  • Při kopírování dat mezi dvěma úložišti dat, která jsou veřejně přístupná přes internet z jakékoli IP adresy, můžete pro aktivitu kopírování použít prostředí Azure Integration Runtime. Tento prostředí Integration Runtime je zabezpečené, spolehlivé, škálovatelné a globálně dostupné.
  • Při kopírování dat do a z úložišť dat, která se nacházejí místně nebo v síti s řízením přístupu (například virtuální síť Azure), musíte nastavit místní prostředí Integration Runtime.

Prostředí Integration Runtime musí být přidružené ke každému zdrojovému úložišti dat a úložišti dat jímky. Informace o tom, jak aktivita Copy určuje, které prostředí Integration Runtime se má použít, najdete v tématu Určení, které prostředí IR se má použít.

Pokud chcete kopírovat data ze zdroje do jímky, služba, která spouští aktivita Copy provádí tyto kroky:

  1. Čte data ze zdrojového úložiště dat.
  2. Provádí serializaci/deserializaci, kompresi/dekompresi, mapování sloupců atd. Provádí tyto operace na základě konfigurace vstupní datové sady, výstupní datové sady a aktivita Copy.
  3. Zapisuje data do úložiště dat jímky nebo cílového úložiště dat.

Copy activity overview

Poznámka:

Pokud se místní prostředí Integration Runtime používá ve zdrojovém úložišti dat nebo v úložišti dat jímky v rámci aktivita Copy, musí být zdroj i jímka přístupné ze serveru, který je hostitelem prostředí Integration Runtime, aby byl aktivita Copy úspěšný.

Podporovaná úložiště a formáty dat

Kategorie Úložiště dat Podporované jako zdroj Podporované jako jímka Podporované prostředím Azure IR Podporované místním prostředím IR
Azure Azure Blob Storage
  Index Azure AI Search
  Azure Cosmos DB for NoSQL
  Azure Cosmos DB pro MongoDB
  Azure Data Explorer
  Azure Data Lake Storage Gen1
  Azure Data Lake Storage Gen2
  Azure Database for MariaDB
  Azure Database for MySQL
  Azure Database for PostgreSQL
  Azure Databricks Delta Lake
  Azure Files
  Azure SQL Database
  Spravovaná instance Azure SQL
  Azure Synapse Analytics
  Azure Table storage
Databáze Amazon RDS pro Oracle
  Amazon RDS pro SQL Server
  Amazon Redshift
  DB2
  Drill
  Google BigQuery
  Greenplum
  HBase
  Hive
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  Phoenix
  PostgreSQL
  Presto
  SAP Business Warehouse přes Open Hub
  SAP Business Warehouse přes MDX
  SAP HANA Jímka podporovaná pouze s Připojení orem ODBC a ovladačem SAP HANA ODBC
  Tabulka SAP
  Snowflake
  Spark
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (Preview)
  MongoDB
  MongoDB Atlas
Soubor Amazon S3
  Úložiště kompatibilní s Amazon S3
  Systém souborů
  FTP
  Cloudové úložiště Googlu
  HDFS
  Oracle Cloud Storage
  SFTP
Obecný protokol Obecná rozhraní HTTP
  Obecná OData
  Obecná rozhraní ODBC
  Obecný standard REST
Služby a aplikace Webová služba Amazon Marketplace
  Concur (Preview)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  Jira
  Magento (Preview)
  Marketo (Preview)
  Microsoft 365
  Oracle Eloqua (Preview)
  Oracle Responsys (Preview)
  Oracle Service Cloud (Preview)
  PayPal (Preview)
  QuickBooks (Preview)
  Salesforce
  Cloud služeb Salesforce
  Salesforce Marketing Cloud
  SAP Cloud for Customer (C4C)
  SAP ECC
  ServiceNow
Seznam služby SharePoint Online
  Shopify (Preview)
  Square (Preview)
  Webová tabulka (tabulka HTML)
  Xero
  Zoho (Preview)

Poznámka:

Konektory s označením Preview si můžete vyzkoušet a poskytnout nám k nim zpětnou vazbu. Pokud do svého řešení chcete zavést závislost na konektorech ve verzi Preview, kontaktujte podporu Azure.

Podporované formáty souborů

Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Pomocí aktivita Copy můžete kopírovat soubory tak, jak jsou mezi dvěma souborovými úložišti dat, v takovém případě se data kopírují efektivně bez serializace nebo deserializace. Kromě toho můžete také analyzovat nebo generovat soubory daného formátu, například můžete provést následující:

  • Zkopírujte data z databáze SQL Serveru a zapište je do Azure Data Lake Storage Gen2 ve formátu Parquet.
  • Kopírování souborů v textovém formátu (CSV) z místního systému souborů a zápis do úložiště objektů blob v Azure ve formátu Avro
  • Zkopírujte komprimované soubory z místního systému souborů, dekomprimujte je průběžně a zapisujte extrahované soubory do Azure Data Lake Storage Gen2.
  • Zkopírujte data ve formátu Gzip s komprimovaným textem (CSV) ze služby Azure Blob Storage a zapište je do služby Azure SQL Database.
  • Mnoho dalších aktivit, které vyžadují serializaci/deserializaci nebo kompresi/dekompresi.

Podporované oblasti

Služba, která umožňuje aktivita Copy, je dostupná globálně v oblastech a geografických oblastech uvedených v umístěních prostředí Azure Integration Runtime. Globálně dostupná topologie zajišťuje efektivní přesun dat, který obvykle zabraňuje směrování mezi oblastmi. Informace o dostupnosti služby Data Factory, pracovních prostorů Synapse a přesunu dat v konkrétní oblasti najdete v části Produkty podle oblasti .

Konfigurace

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Obecně platí, že pokud chcete použít aktivita Copy v kanálech Azure Data Factory nebo Synapse, musíte:

  1. Vytvořte propojené služby pro zdrojové úložiště dat a úložiště dat jímky. Seznam podporovaných konektorů najdete v části Podporované úložiště dat a formáty tohoto článku. Informace o konfiguraci a podporované vlastnosti najdete v části "Vlastnosti propojené služby" v článku o konektoru.
  2. Vytvořte datové sady pro zdroj a jímku. Informace o konfiguraci a podporované vlastnosti najdete v částech "Vlastnosti datové sady" článků o konektoru zdroje a jímky.
  3. Vytvořte kanál s aktivita Copy. Následující část obsahuje příklad.

Syntaxe

Následující šablona aktivita Copy obsahuje úplný seznam podporovaných vlastností. Zadejte ty, které odpovídají vašemu scénáři.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Podrobnosti o syntaxi

Vlastnost Popis Povinné?
type U aktivita Copy nastavteCopy Ano
Vstupy Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na zdrojová data. Aktivita Copy podporuje pouze jeden vstup. Ano
Výstupy Zadejte datovou sadu, kterou jste vytvořili, která odkazuje na data jímky. Aktivita Copy podporuje pouze jeden výstup. Ano
typeProperties Zadejte vlastnosti pro konfiguraci aktivita Copy. Ano
zdroj Zadejte typ zdroje kopírování a odpovídající vlastnosti pro načítání dat.
Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat.
Ano
Dřez Zadejte typ jímky kopírování a odpovídající vlastnosti pro zápis dat.
Další informace najdete v části "aktivita Copy vlastnosti" v článku konektoru uvedeného v podporovaných úložištích a formátech dat.
Ano
Překladatel Zadejte explicitní mapování sloupců ze zdroje na jímku. Tato vlastnost platí, když výchozí chování kopírování nevyhovuje vašim potřebám.
Další informace naleznete v tématu Mapování schématu v aktivitě kopírování.
No
dataIntegrationUnits Zadejte míru, která představuje výkon, který prostředí Azure Integration Runtime používá pro kopírování dat. Tyto jednotky se dříve označovaly jako jednotky pro přesun dat v cloudu (DMU).
Další informace najdete v tématu Integrace Dat Jednotky.
No
parallelCopies Zadejte paralelismus, který má aktivita Copy použít při čtení dat ze zdroje a zápisu dat do jímky.
Další informace naleznete v tématu Paralelní kopírování.
No
Zachovat Určete, jestli se mají během kopírování dat zachovat metadata nebo seznamy ACL.
Další informace najdete v tématu Zachování metadat.
No
enableStaging
přípravný Nastavení
Určete, jestli se mají zfázovat dočasná data v úložišti objektů blob místo přímé kopírování dat ze zdroje do jímky.
Informace o užitečných scénářích a podrobnostech konfigurace najdete v tématu Fázovaná kopie.
No
enableSkipIncompatibleRow
redirectIncompatibleRow Nastavení
Zvolte způsob zpracování nekompatibilních řádků při kopírování dat ze zdroje do jímky.
Další informace naleznete v tématu Odolnost proti chybám.
No

Sledování

Aktivita Copy spuštěné v kanálech Azure Data Factory a Synapse můžete monitorovat vizuálně i programově. Podrobnosti najdete v tématu Monitorování aktivity kopírování.

Přírůstková kopie

Kanály Data Factory a Synapse umožňují přírůstkově kopírovat rozdílová data ze zdrojového úložiště dat do úložiště dat jímky. Podrobnosti najdete v kurzu : Přírůstkové kopírování dat.

Výkon a ladění

Prostředí pro monitorování aktivit kopírování ukazuje statistiky výkonu kopírování pro každou z vašich aktivit. Průvodce výkonem a škálovatelností aktivita Copy popisuje klíčové faktory, které ovlivňují výkon přesunu dat prostřednictvím aktivita Copy. Uvádí také hodnoty výkonu pozorované během testování a popisuje, jak optimalizovat výkon aktivita Copy.

Obnovení z posledního neúspěšného spuštění

aktivita Copy podporuje obnovení z posledního neúspěšného spuštění, když kopírujete velké soubory v binárním formátu mezi úložišti založenými na souborech a zvolíte zachování hierarchie složek a souborů ze zdroje do jímky, například při migraci dat z AmazonU S3 do Azure Data Lake Storage Gen2. Platí pro následující konektory založené na souborech: Amazon S3, Amazon S3 Compatible StorageAzure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage a SFTP.

Životopis aktivity kopírování můžete využít následujícími dvěma způsoby:

  • Opakování na úrovni aktivity: Počet opakování můžete nastavit u aktivity kopírování. Pokud se tato aktivita kopírování během provádění kanálu nezdaří, spustí se další automatické opakování z bodu selhání poslední zkušební verze.

  • Opětovné spuštění z neúspěšné aktivity: Po dokončení spuštění kanálu můžete také aktivovat opětovné spuštění z neúspěšné aktivity v zobrazení monitorování uživatelského rozhraní ADF nebo programově. Pokud je neúspěšná aktivita aktivitou kopírování, kanál se z této aktivity znovu spustí, ale také obnoví z bodu selhání předchozího spuštění.

    Copy resume

Několik bodů k poznámce:

  • Obnovení probíhá na úrovni souboru. Pokud aktivita kopírování selže při kopírování souboru, v dalším spuštění se tento konkrétní soubor znovu zkopíruje.
  • Aby obnovení fungovalo správně, neměňte nastavení aktivity kopírování mezi opakovaným spuštěním.
  • Při kopírování dat z Amazon S3, Azure Blob, Azure Data Lake Storage Gen2 a Google Cloud Storage může aktivita kopírování pokračovat z libovolného počtu zkopírovaných souborů. Zatímco u zbývajících konektorů založených na souborech jako zdroje aktuálně aktivita kopírování podporuje obnovení z omezeného počtu souborů, obvykle v rozsahu desítek tisíc a liší se v závislosti na délce cest k souborům; soubory nad rámec tohoto čísla se během opětovného spuštění znovu zkopírují.

V případě jiných scénářů než kopírování binárních souborů se aktivita kopírování spustí znovu od začátku.

Zachování metadat spolu s daty

Při kopírování dat ze zdroje do jímky můžete ve scénářích, jako je migrace data Lake, zachovat metadata a seznamy ACL spolu s daty pomocí aktivity kopírování. Podrobnosti najdete v tématu Zachování metadat.

Přidání značek metadat do jímky založené na souborech

Když je jímka založená na službě Azure Storage (Azure Data Lake Storage nebo Azure Blob Storage), můžeme se rozhodnout přidat do souborů určitá metadata. Tato metadata se zobrazí jako součást vlastností souboru jako páry klíč-hodnota. Pro všechny typy jímek založených na souborech můžete přidat metadata zahrnující dynamický obsah pomocí parametrů kanálu, systémových proměnných, funkcí a proměnných. Kromě toho máte pro datovou jímku založenou na binárních souborech možnost přidat datum a čas poslední změny (zdrojového souboru) pomocí klíčového slova $$LASTMODIFIED a také vlastní hodnoty jako metadata do souboru jímky.

Mapování schématu a datového typu

Informace o tom, jak aktivita Copy mapuje zdrojová data na jímku, najdete v mapování schématu a datového typu.

Přidání dalších sloupců během kopírování

Kromě kopírování dat ze zdrojového úložiště dat do jímky můžete také nakonfigurovat přidání dalších datových sloupců pro kopírování do jímky. Příklad:

  • Při kopírování ze zdroje založeného na souboru uložte relativní cestu k souboru jako další sloupec pro trasování, ze kterého souboru data pocházejí.
  • Duplikujte zadaný zdrojový sloupec jako jiný sloupec.
  • Přidejte sloupec s výrazem ADF pro připojení systémových proměnných ADF, jako je název kanálu nebo ID kanálu, nebo uložte jinou dynamickou hodnotu z výstupu nadřazené aktivity.
  • Přidejte sloupec se statickou hodnotou, aby vyhovoval vašim potřebám podřízené spotřeby.

Následující konfiguraci najdete na kartě zdroje aktivity kopírování. Tyto další sloupce v mapování schématu aktivity kopírování můžete také namapovat obvyklým způsobem pomocí definovaných názvů sloupců.

Add additional columns in copy activity

Tip

Tato funkce funguje s nejnovějším modelem datové sady. Pokud tuto možnost v uživatelském rozhraní nevidíte, zkuste vytvořit novou datovou sadu.

Pokud ho chcete nakonfigurovat programově, přidejte additionalColumns vlastnost do zdroje aktivity kopírování:

Vlastnost Popis Povinní účastníci
additionalColumns Přidejte další datové sloupce pro kopírování do jímky.

Každý objekt pod additionalColumns polem představuje další sloupec. Definuje name název sloupce a value označuje hodnotu dat daného sloupce.

Povolené datové hodnoty jsou:
- $$FILEPATH – Rezervovaná proměnná označuje, že se má uložit relativní cesta zdrojových souborů k cestě ke složce zadané v datové sadě. Platí pro zdroj založený na souborech.
- $$COLUMN:<source_column_name> – vzor rezervované proměnné označuje duplikování zadaného zdrojového sloupce jako jiného sloupce.
- Expression
- Statická hodnota
No

Příklad:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Tip

Po nakonfigurování dalších sloupců nezapomeňte je namapovat na cílovou jímku na kartě Mapování.

Automatické vytváření tabulek jímky

Pokud data kopírujete do databáze SQL nebo Azure Synapse Analytics, aktivita kopírování ji automaticky vytváří na základě zdrojových dat. Cílem je pomoct vám rychle začít načítat data a vyhodnocovat databáze SQL nebo Azure Synapse Analytics. Po příjmu dat můžete schéma tabulky jímky zkontrolovat a upravit podle svých potřeb.

Tato funkce se podporuje při kopírování dat z libovolného zdroje do následujících úložišť dat jímky. Možnost najdete v uživatelském rozhraní pro vytváření ADF ->aktivita Copy jímce ->Table option ->Auto create table nebo prostřednictvím tableOption vlastnosti v datové části jímky aktivity kopírování.

Create sink tables

Odolnost proti chybám

Ve výchozím nastavení aktivita Copy zastaví kopírování dat a vrátí chybu, pokud jsou řádky zdrojových dat nekompatibilní s řádky dat jímky. Pokud chcete, aby kopírování proběhlo úspěšně, můžete nakonfigurovat aktivita Copy tak, aby přeskočí nekompatibilní řádky a zkopírovala jenom kompatibilní data. Podrobnosti najdete v tématu aktivita Copy odolnost proti chybám.

Ověření konzistence dat

Při přesunu dat ze zdroje do cílového úložiště poskytuje aktivita kopírování možnost provést další ověření konzistence dat, aby se zajistilo, že se data nejen úspěšně zkopírují ze zdroje do cílového úložiště, ale také ověří, že jsou konzistentní mezi zdrojovým a cílovým úložištěm. Po nalezení nekonzistentních souborů během přesunu dat můžete buď přerušit aktivitu kopírování, nebo pokračovat ve kopírování zbytku tím, že povolíte nastavení odolnosti proti chybám a přeskočí nekonzistentní soubory. Přeskočené názvy souborů můžete získat povolením nastavení protokolu relace v aktivitě kopírování. Podrobnosti najdete v tématu Ověření konzistence dat v aktivitě kopírování.

Protokol relací

Můžete protokolovat zkopírované názvy souborů, které vám pomůžou dále zajistit, aby se data nejen úspěšně zkopírovala ze zdroje do cílového úložiště, ale také konzistentně mezi zdrojovým a cílovým úložištěm kontrolou protokolů relace aktivit kopírování. Podrobnosti najdete v části Aktivita kopírování přihlášení k relaci.

Projděte si následující rychlé starty, kurzy a ukázky: