Megosztás a következőn keresztül:


Copy tevékenység az Azure Data Factoryben és az Azure Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Egyszerű módot keres az adatok áthelyezésére? A Másolási feladat a Microsoft Fabricben egyszerű, méretezhető módot kínál az adatok folyamat létrehozása nélküli betöltésére. Megtudhatja, hogyan hozhat létre egyet.

Az Azure Data Factoryben és a Synapse-folyamatokban a Copy tevékenység használatával másolhatja az adatokat a helyszínen és a felhőben található adattárak között. Az adatok másolása után más tevékenységeket is használhat az adatok további átalakítására és elemzésére. Az Copy tevékenység az üzleti intelligencia (BI) és az alkalmazáshasználat átalakítási és elemzési eredményeinek közzétételére is használható.

A Copy tevékenység szerepe

A Copy tevékenység integrációs futtatókörnyezetben lesz végrehajtva. Különböző típusú integrációs futtatókörnyezeteket használhat különböző adatmásolási forgatókönyvekhez:

  • Amikor adatokat másol két olyan adattár között, amelyek bármely IP-címről nyilvánosan elérhetők az interneten keresztül, az Azure integrációs modulját használhatja a másolási tevékenységhez. Ez az integrációs modul biztonságos, megbízható, méretezhető és globálisan elérhető.
  • Amikor olyan adattárakba másol adatokat, amelyek helyszíni vagy hozzáférés-vezérléssel rendelkező hálózaton (például Azure-beli virtuális hálózaton) találhatók, be kell állítania egy saját üzemeltetésű integrációs modult.

Minden forrás- és fogadóadattárhoz integrációs futtatókörnyezetet kell társítani. A Másolási tevékenység által használandó integrációs futtatási környezet meghatározásáról további információt a használandó integrációs futtatási környezet meghatározása című témakörben talál.

Megjegyzés

Azonos másolási tevékenységen belül nem használhat egynél több saját üzemeltetésű integrációs futtatókörnyezetet. A tevékenység forrásának és fogadójának ugyanahhoz a saját üzemeltetésű integrációs modulhoz kell csatlakoznia.

Adatok másolásához egy forrásból egy célállomásra a másolási tevékenységet végző szolgáltatás a következő lépéseket hajtja végre:

  1. Adatokat olvas be egy forrásadattárból.
  2. Szerializálást/deszerializálást, tömörítést/dekompressziót, oszlopleképezést és így tovább. Ezeket a műveleteket a bemeneti adatkészlet, a kimeneti adatkészlet és a Copy tevékenység konfigurációja alapján hajtja végre.
  3. Adatokat ír a fogadó vagy cél adattárba.

Másolási tevékenység áttekintése

Megjegyzés

Ha egy saját üzemeltetésű integrációs modult használ egy forrás- vagy fogadóadattárban egy Copy tevékenység belül, akkor a forrásnak és a fogadónak is elérhetőnek kell lennie az integrációs modult üzemeltető kiszolgálóról a Copy tevékenység sikerességéhez.

Támogatott adattárak és formátumok

Kategória Adattár Forrásként támogatott Fogadóként támogatva Az Azure IR által támogatott Önállóan üzemeltetett IR által támogatva
Kék Azure Blob Storage
  Azure AI Search-index
  Azure Cosmos DB for NoSQL
  Azure Cosmos DB a MongoDB-hez
  Azure Data Explorer
  Azure Data Lake Storage Gen1
  Azure Data Lake Storage Gen2
  Azure adatbázis a MariaDB-hez
  Azure Database for MySQL
  Azure Database for PostgreSQL
  Azure Databricks Delta Lake
  Azure Files
  Azure SQL-adatbázis
  Azure SQL Managed Instance
  Azure Synapse Analytics
  Azure Táblatárhely
Adatbázis Amazon RDS for Oracle
  Sql Serverhez készült Amazon RDS
  Amazon Redshift
  DB2
  Fúró
  Google BigQuery
  Greenplum
  HBase
  Kaptár
  Apache Impala
  Informix
  MariaDB
  Microsoft Access
  MySQL
  Netezza
  Oracle
  Főnix
  PostgreSQL
  Presto
  SAP Business Warehouse az Open Hubon keresztül
  SAP Business Warehouse az MDX-en keresztül
  SAP HANA A fogadó csak az ODBC-összekötővel és az SAP HANA ODBC-illesztővel támogatott
  SAP-tábla
  Hópehely
  Szikra
  SQL Server
  Sybase
  Teradata
  Vertica
NoSQL Cassandra
  Couchbase (előzetes verzió)
  MongoDB
  MongoDB Atlasz
Fájl Amazon S3
  Amazon S3-kompatibilis tároló
  Fájlrendszer
  FTP
  Google Cloud Storage
  HDFS
  Oracle Cloud Storage
  SFTP
Általános protokoll Generikus HTTP
  Általános OData
  Általános ODBC
  Generikus REST
Szolgáltatások és alkalmazások Amazon Marketplace webszolgáltatás (elavult)
  Concur (előzetes verzió)
  Dataverse
  Dynamics 365
  Dynamics AX
  Dynamics CRM
  Google AdWords
  HubSpot
  Jira
  Magento (előzetes verzió)
  Marketo (előzetes verzió)
  Microsoft 365
  Oracle Eloqua (előzetes verzió)
  Oracle Responsys (előzetes verzió)
  Oracle Service Cloud (előzetes verzió)
  PayPal (előzetes verzió)
  QuickBooks (előzetes verzió)
  Salesforce
  Salesforce Service Cloud
  Salesforce Marketing Cloud
  SAP Cloud for Customer (C4C)
  SAP ECC
  ServiceNow
SharePoint Online-lista
  Shopify (előzetes verzió)
  Square (előzetes verzió)
  Webtábla (HTML-tábla)
  Xero
  Zoho (előzetes verzió)

Megjegyzés

Az előzetes verzió jelzéssel ellátott összekötőket kipróbálhatja, és visszajelzést küldhet róluk. Ha függőséget szeretne felvenni a megoldásában található előzetes verziójú összekötőkre, lépjen kapcsolatba az Azure-támogatással.

Támogatott fájlformátumok

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

A Copy tevékenység két fájlalapú adattár között másolhatja a fájlokat, ebben az esetben az adatok hatékonyan másolhatók szerializálás vagy deszerializálás nélkül. Emellett egy adott formátumú fájlokat is elemezhet vagy hozhat létre, például a következőket hajthatja végre:

  • Adatok másolása SQL Server-adatbázisból, és írás az Azure Data Lake Storage Gen2-be Parquet formátumban.
  • Másolja a fájlokat szöveges (CSV) formátumban egy helyszíni fájlrendszerből, és írjon az Azure Blob Storage-ba Avro formátumban.
  • Tömörített fájlokat másolhat egy helyszíni fájlrendszerből, kicsomagolhatja őket menet közben, és kicsomagolt fájlokat írhat az Azure Data Lake Storage Gen2-be.
  • Másolja az adatokat Gzip tömörített szöveg (CSV) formátumban az Azure Blob Storage-ból, és írja be azOkat az Azure SQL Database-be.
  • Még sok olyan tevékenység, amely szerializálást/deszerializálást vagy tömörítést/dekompressziót igényel.

Támogatott régiók

A Copy tevékenység engedélyező szolgáltatás globálisan elérhető az Azure integrációs moduljában felsorolt régiókban és földrajzi helyeken. A globálisan elérhető topológia hatékony adatáthelyezést biztosít, amely általában elkerüli a régiók közötti ugrásokat. A Termékek régiónként című témakörben ellenőrizheti a Data Factory, a Synapse-munkaterületek és az adatáthelyezés elérhetőségét egy adott régióban.

Konfiguráció

A másolási tevékenység végrehajtásához egy folyamattal használhatja az alábbi eszközök vagy SDK-k egyikét:

A Copy tevékenység az Azure Data Factoryben vagy a Synapse-folyamatokban való használatához általában a következőkre van szükség:

  1. Társított szolgáltatások létrehozása a forrásadattárhoz és a fogadó adattárhoz. A támogatott összekötők listáját a jelen cikk Támogatott adattárak és formátumok szakaszában találja. A konfigurációs információkért és a támogatott tulajdonságokért tekintse meg az összekötő cikk "Társított szolgáltatás tulajdonságai" szakaszát.
  2. Hozzon létre adatkészleteket a forráshoz és a fogadóhoz. A konfigurációs információkról és a támogatott tulajdonságokról a forrás- és fogadó-összekötő cikkeinek "Adathalmaz tulajdonságai" szakaszában olvashat.
  3. Hozzon létre egy csatornát a másolási tevékenységgel. A következő szakasz egy példát mutat be.

Szemantika

A Copy tevékenység alábbi sablonja a támogatott tulajdonságok teljes listáját tartalmazza. Adja meg a forgatókönyvnek megfelelőket.

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

Szintaxis részletei

Tulajdonság Leírás Kötelező?
típus Egy Copy tevékenység esetén állítsa a következőre:Copy Igen
Bemenetek Adja meg a létrehozott adathalmazt, amely a forrásadatokra mutat. A Copy tevékenység csak egyetlen bemenetet támogat. Igen
Kimenetek Adja meg azt az adatkészletet, amelyet létrehozott és amely a fogadó adatokra mutat. A Copy tevékenység csak egyetlen kimenetet támogat. Igen
típusTulajdonságok Adja meg a Copy tevékenység konfigurálásához használt tulajdonságokat. Igen
adatforrás Adja meg a másolási forrás típusát és az adatok beolvasásához szükséges tulajdonságokat.
További információért lásd a „Másolási tevékenység tulajdonságai” című szakaszt a támogatott adattárakat és formátumokat felsoroló összekötő cikkben.
Igen
fogadó Adja meg a másolási fogadó típusát és az adatok írásához szükséges tulajdonságokat.
További információért lásd a „Másolási tevékenység tulajdonságai” című szakaszt a támogatott adattárakat és formátumokat felsoroló összekötő cikkben.
Igen
fordító Explicit oszlopleképezések megadása forrásról fogadóra. Ez a tulajdonság akkor érvényes, ha az alapértelmezett másolási viselkedés nem felel meg az igényeinek.
További információ: Sémaleképezés másolási tevékenységben.
Nem
adatintegrációs egységek Adjon meg egy mértéket, amely az Azure integrációs modul által az adatmásoláshoz használt energia mennyiségét jelöli. Ezeket az egységeket korábban felhőbeli adatáthelyezési egységeknek (DMU) nevezték.
További információ: adatintegráció Egységek.
Nem
párhuzamos másolatok Adja meg azt a párhuzamosságot, amelyet a másolási folyamat használni szeretne, amikor adatokat olvas a forrásból, és adatokat ír a célhelyre.
További információ: Párhuzamos másolás.
Nem
megőriz Adja meg, hogy meg szeretné-e őrizni a metaadatokat/ACL-eket az adatmásolás során.
További információ: Metaadatok megőrzése.
Nem
enableStaging
átmeneti beállítások
Adja meg, hogy az ideiglenes adatokat a Blob Storage-ban szeretné-e szakaszolni ahelyett, hogy közvetlenül másolja az adatokat a forrásból a fogadóba.
A hasznos forgatókönyvekről és a konfiguráció részleteiről további információt a szakaszos másolatban talál.
Nem
engedélyezze az inkompatibilis sorok kihagyását
átirányításKompatibilisSorBeállítások
Adja meg, hogyan kezelje az inkompatibilis sorokat, amikor adatokat másol a forrásból a célhelyre.
További információ: Hibatűrés.
Nem

Figyelés

Az Azure Data Factoryben és a Synapse-pipeline-okban futó Copy tevékenységet vizuálisan és programfelületről is monitorozhatja. További részletekért lásd a Másolási tevékenység figyelése részt.

Inkrementális másolás

A Data Factory és a Synapse-folyamatok lehetővé teszik a deltaadatok fokozatos másolását egy forrásadattárból egy fogadó adattárba. További részletekért lásd az oktatóanyagot: Adatok növekményes másolása.

Teljesítmény és finomhangolás

A másolási tevékenység monitorozási felülete az egyes tevékenységfuttatások másolási teljesítménystatisztikáit jeleníti meg. A Copy tevékenység teljesítmény- és méretezhetőségi útmutatója azokat a főbb tényezőket ismerteti, amelyek befolyásolják az adatáthelyezés teljesítményét a Copy tevékenység keresztül. Emellett felsorolja a tesztelés során megfigyelt teljesítményértékeket, és ismerteti a Copy tevékenység teljesítményének optimalizálását.

Folytatás az utolsó sikertelen futtatás után

A másolási tevékenység támogatja a legutóbbi sikertelen futtatás után a folytatást, ha nagy méretű fájlokat másol változatlanul bináris formátumban a fájlalapú tárolók között, és úgy dönt, hogy megőrzi a mappa- és fájlhierarchiát a forrástól a célhelyre, például adatok migrálására az Amazon S3-ból az Azure Data Lake Storage Gen2-be. A következő fájlalapú összekötőkre vonatkozik: Amazon S3, Amazon S3 Kompatibilis StorageAzure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, Fájlrendszer, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage és SFTP.

A másolási tevékenység folytatását a következő két módon használhatja:

  • Tevékenységszintű újrapróbálkozás: Beállíthatja a másolási tevékenység újrapróbálkozásainak számát. A folyamat végrehajtása során, ha ez a másolási tevékenység sikertelen, a következő automatikus újrapróbálkozás a legutóbbi próba hibapontjától indul el.

  • Sikertelen tevékenység újrafuttatása: A folyamatvégrehajtás befejezése után az ADF felhasználói felület figyelési nézetben vagy programozott módon is elindíthatja a sikertelen tevékenység újrafuttatását. Ha a sikertelen tevékenység egy másolási tevékenység, a folyamat nemcsak ebből a tevékenységből fog újraindulni, hanem folytatódni fog az előző futtatás hibapontjától is.

    Önéletrajz másolása

Néhány megjegyzés:

  • A folytatás fájlszinten történik. Ha a másolási tevékenység egy fájl másolása során meghiúsul, a következő futtatáskor a program újramásolja ezt a fájlt.
  • A folytatás megfelelő működéséhez ne módosítsa a másolási tevékenység beállításait az újrafuttatások között.
  • Amikor adatokat másol az Amazon S3, az Azure Blob, az Azure Data Lake Storage Gen2 és a Google Cloud Storage szolgáltatásból, a másolási tevékenység tetszőleges számú másolt fájlból folytatódhat. Jelenleg a többi fájlalapú összekötőknél, mint források esetén, a másolási tevékenység csak korlátozott számú fájl esetében támogatja a folytatást, amely általában több tízezres tartományban van, és a fájl elérési útjainak hosszától függ. Az ezt meghaladó számú fájlokat ismételten lemásolja az újrafuttatások során.

A bináris fájlmásoláson kívül más esetekben a másolási tevékenység újrafuttatása az elejétől kezdődik.

Megjegyzés

A legutóbb sikertelen futtatásból való újraindulást a saját üzemeltetésű integrációs futtatókörnyezeten keresztül most már csak a helyi integrációs modul 5.43.8935.2-es vagy újabb verziója támogatja.

Metaadatok megőrzése az adatokkal együtt

Adatok forrásrendszerből a célszámítógépre történő másolása során, például data lake migráció esetén, lehetőség van arra is, hogy a másolási tevékenység során a metaadatokat és az ACL-eket az adatokkal együtt megőrizze. Részletekért lásd: Metaadatok megőrzése.

Metaadatcímkék hozzáadása fájl alapú tárolóhoz

Ha a fogadó Azure Storage-alapú (Azure Data Lake Storage vagy Azure Blob Storage), dönthetünk úgy, hogy metaadatokat adunk hozzá a fájlokhoz. Ezek a metaadatok kulcs-érték párokként jelennek meg a fájltulajdonságok részeként. A fájlalapú fogadók minden típusához hozzáadhat dinamikus tartalmakat tartalmazó metaadatokat a folyamatparaméterek, a rendszerváltozók, a függvények és a változók használatával. Ezen kívül bináris fájlalapú fogadó esetén lehetősége van az Utolsó módosítás dátuma (a forrásfájlból) hozzáadására az $$LASTMODIFIED kulcsszóval, az egyéni értékeket pedig metaadatként a fogadófájlhoz.

Séma- és adattípus-leképezés

Tekintse meg a Séma- és adattípus-megfeleltetés című részt, hogy megtudja, hogyan képezi le a Copy művelet a forrásadatokat a célkörnyezetbe.

További oszlopok hozzáadása másolás közben

A forrásadattárból a fogadóba másolt adatok mellett beállíthatja, hogy további adatoszlopokat is hozzáadjon a fogadóba történő másoláshoz. Példa:

  • Ha fájlalapú forrásból másol, a relatív fájl elérési útját egy sztring típusú további oszlopként tárolja annak érdekében, hogy nyomon követhesse, melyik fájlból származnak az adatok.
  • A megadott forrásoszlop duplikálása másik oszlopként.
  • Adjon hozzá egy ADF-kifejezést tartalmazó oszlopot az ADF rendszerváltozóinak, például a folyamatnévnek/folyamatazonosítónak a csatolásához, vagy más dinamikus érték tárolásához a felsőbb rétegbeli tevékenység kimenetéből.
  • Adjon hozzá egy statikus értékkel rendelkező oszlopot az alsóbb rétegbeli felhasználás igényeinek megfelelően.

A másolási tevékenység forráslapján az alábbi konfiguráció található. Ezeket a további oszlopokat a másolási tevékenység sémaleképezésében is megfeleltetheti a szokásos módon a megadott oszlopnevek használatával.

További oszlopok hozzáadása másolási tevékenységhez

Tipp.

Ez a funkció a legújabb adathalmaz-modellel működik. Ha nem látja ezt a beállítást a felhasználói felületen, próbáljon meg létrehozni egy új adatkészletet.

A programozott konfiguráláshoz adja hozzá a additionalColumns tulajdonságot a másolási tevékenység forrásában.

Tulajdonság Leírás Kötelező
továbbicolumnok Adjon hozzá további adatoszlopokat a fogadóba másolandó adatokhoz.

A tömb alatti additionalColumns objektumok egy további oszlopot jelölnek. Ez name határozza meg az oszlop nevét, és az value oszlop adatértékét.

Az engedélyezett adatértékek a következők:
- $$FILEPATH - a fenntartott változó azt jelzi, hogy a forrásfájlok relatív elérési útja az adathalmazban megadott mappa elérési útjára van tárolva. Alkalmaz fájl alapú forrásra.
- $$COLUMN:<source_column_name> - egy fenntartott változóminta azt jelzi, hogy a megadott forrásoszlopot egy másik oszlopként kell duplikálni
- Kifejezés
- Statikus érték
Nem

Példa:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Tipp.

A további oszlopok konfigurálása után ne feledje el leképezni őket a célfogadóban, a Leképezés lapon.

Fogadótáblák automatikus generálása

Ha adatokat másol az SQL Database-be/Azure Synapse Analyticsbe, ha a céltábla nem létezik, a másolási tevékenység támogatja az automatikus létrehozást a forrásadatok alapján. Célja, hogy segítsen az adatok gyors betöltésében és az SQL Database/Azure Synapse Analytics kiértékelésében. Az adatbetöltés után az igényeinek megfelelően áttekintheti és módosíthatja a fogadótábla sémáját.

Ez a funkció akkor támogatott, ha adatokat másol bármely forrásból az alábbi fogadóadattárakba. A beállítást az ADF szerzői felhasználói felületén találja ->Copy tevékenység végpont ->Táblázat opció ->Tábla automatikus létrehozása, vagy a másolási tevékenység végpontjának tulajdonságán keresztül.tableOption

Fogadótáblák létrehozása

Hibatűrés

Alapértelmezés szerint a Copy tevékenység leállítja az adatok másolását, és hibát ad vissza, ha a forrásadatsorok nem kompatibilisek a fogadó adatsoraival. A másolás sikerességéhez konfigurálhatja a Copy tevékenység, hogy kihagyja és naplózza a nem kompatibilis sorokat, és csak a kompatibilis adatokat másolja. Részletekért tekintse meg Másolási tevékenység hibatűrését.

Adatkonzisztencia-ellenőrzés

Amikor adatokat helyez át a forrásból a céltárolóba, a másolási tevékenység lehetővé teszi az adatok konzisztenciájának további ellenőrzését annak érdekében, hogy az adatok ne csak a forrásból a céltárolóba legyenek másolva, hanem a forrás és a céltároló közötti konzisztenciát is ellenőrizze. Miután inkonzisztens fájlokat talált az adatáthelyezés során, megszakíthatja a másolási tevékenységet, vagy folytathatja a másolást a többivel, ha engedélyezi a hibatűrési beállítást a következetlen fájlok kihagyásához. A kihagyott fájlneveket a másolási tevékenység munkamenetnapló-beállításának engedélyezésével szerezheti be. Részletekért tekintse meg az adatkonzisztencia-ellenőrzést a másolási tevékenységben .

Munkamenetnapló

Naplózhatja a másolt fájlneveket, ami segíthet abban, hogy az adatok ne csak a forrásból a céltárba másolódnak sikeresen, hanem a másolási tevékenység munkamenetnaplóinak áttekintésével konzisztensek legyenek a forrás és a céltár között. További részletekért lásd: a munkamenet bejelentkezési másolási folyamatát.

Tekintse meg az alábbi rövid útmutatókat, oktatóanyagokat és példákat: