Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A következőkre vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Egyszerű módot keres az adatok áthelyezésére? A Másolási feladat a Microsoft Fabricben egyszerű, méretezhető módot kínál az adatok folyamat létrehozása nélküli betöltésére. Megtudhatja, hogyan hozhat létre egyet.
Az Azure Data Factoryben és a Synapse-folyamatokban a Copy tevékenység használatával másolhatja az adatokat a helyszínen és a felhőben található adattárak között. Az adatok másolása után más tevékenységeket is használhat az adatok további átalakítására és elemzésére. Az Copy tevékenység az üzleti intelligencia (BI) és az alkalmazáshasználat átalakítási és elemzési eredményeinek közzétételére is használható.
A Copy tevékenység integrációs futtatókörnyezetben lesz végrehajtva. Különböző típusú integrációs futtatókörnyezeteket használhat különböző adatmásolási forgatókönyvekhez:
- Amikor adatokat másol két olyan adattár között, amelyek bármely IP-címről nyilvánosan elérhetők az interneten keresztül, az Azure integrációs modulját használhatja a másolási tevékenységhez. Ez az integrációs modul biztonságos, megbízható, méretezhető és globálisan elérhető.
- Amikor olyan adattárakba másol adatokat, amelyek helyszíni vagy hozzáférés-vezérléssel rendelkező hálózaton (például Azure-beli virtuális hálózaton) találhatók, be kell állítania egy saját üzemeltetésű integrációs modult.
Minden forrás- és fogadóadattárhoz integrációs futtatókörnyezetet kell társítani. A Másolási tevékenység által használandó integrációs futtatási környezet meghatározásáról további információt a használandó integrációs futtatási környezet meghatározása című témakörben talál.
Megjegyzés
Azonos másolási tevékenységen belül nem használhat egynél több saját üzemeltetésű integrációs futtatókörnyezetet. A tevékenység forrásának és fogadójának ugyanahhoz a saját üzemeltetésű integrációs modulhoz kell csatlakoznia.
Adatok másolásához egy forrásból egy célállomásra a másolási tevékenységet végző szolgáltatás a következő lépéseket hajtja végre:
- Adatokat olvas be egy forrásadattárból.
- Szerializálást/deszerializálást, tömörítést/dekompressziót, oszlopleképezést és így tovább. Ezeket a műveleteket a bemeneti adatkészlet, a kimeneti adatkészlet és a Copy tevékenység konfigurációja alapján hajtja végre.
- Adatokat ír a fogadó vagy cél adattárba.
Megjegyzés
Ha egy saját üzemeltetésű integrációs modult használ egy forrás- vagy fogadóadattárban egy Copy tevékenység belül, akkor a forrásnak és a fogadónak is elérhetőnek kell lennie az integrációs modult üzemeltető kiszolgálóról a Copy tevékenység sikerességéhez.
Támogatott adattárak és formátumok
Megjegyzés
Az előzetes verzió jelzéssel ellátott összekötőket kipróbálhatja, és visszajelzést küldhet róluk. Ha függőséget szeretne felvenni a megoldásában található előzetes verziójú összekötőkre, lépjen kapcsolatba az Azure-támogatással.
Támogatott fájlformátumok
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- Iceberg formátum (csak az Azure Data Lake Storage Gen2 esetén)
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
A Copy tevékenység két fájlalapú adattár között másolhatja a fájlokat, ebben az esetben az adatok hatékonyan másolhatók szerializálás vagy deszerializálás nélkül. Emellett egy adott formátumú fájlokat is elemezhet vagy hozhat létre, például a következőket hajthatja végre:
- Adatok másolása SQL Server-adatbázisból, és írás az Azure Data Lake Storage Gen2-be Parquet formátumban.
- Másolja a fájlokat szöveges (CSV) formátumban egy helyszíni fájlrendszerből, és írjon az Azure Blob Storage-ba Avro formátumban.
- Tömörített fájlokat másolhat egy helyszíni fájlrendszerből, kicsomagolhatja őket menet közben, és kicsomagolt fájlokat írhat az Azure Data Lake Storage Gen2-be.
- Másolja az adatokat Gzip tömörített szöveg (CSV) formátumban az Azure Blob Storage-ból, és írja be azOkat az Azure SQL Database-be.
- Még sok olyan tevékenység, amely szerializálást/deszerializálást vagy tömörítést/dekompressziót igényel.
Támogatott régiók
A Copy tevékenység engedélyező szolgáltatás globálisan elérhető az Azure integrációs moduljában felsorolt régiókban és földrajzi helyeken. A globálisan elérhető topológia hatékony adatáthelyezést biztosít, amely általában elkerüli a régiók közötti ugrásokat. A Termékek régiónként című témakörben ellenőrizheti a Data Factory, a Synapse-munkaterületek és az adatáthelyezés elérhetőségét egy adott régióban.
Konfiguráció
A másolási tevékenység végrehajtásához egy folyamattal használhatja az alábbi eszközök vagy SDK-k egyikét:
- Adatok másolása eszköz
- Azure Portál
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Azure Resource Manager-sablon
A Copy tevékenység az Azure Data Factoryben vagy a Synapse-folyamatokban való használatához általában a következőkre van szükség:
- Társított szolgáltatások létrehozása a forrásadattárhoz és a fogadó adattárhoz. A támogatott összekötők listáját a jelen cikk Támogatott adattárak és formátumok szakaszában találja. A konfigurációs információkért és a támogatott tulajdonságokért tekintse meg az összekötő cikk "Társított szolgáltatás tulajdonságai" szakaszát.
- Hozzon létre adatkészleteket a forráshoz és a fogadóhoz. A konfigurációs információkról és a támogatott tulajdonságokról a forrás- és fogadó-összekötő cikkeinek "Adathalmaz tulajdonságai" szakaszában olvashat.
- Hozzon létre egy csatornát a másolási tevékenységgel. A következő szakasz egy példát mutat be.
Szemantika
A Copy tevékenység alábbi sablonja a támogatott tulajdonságok teljes listáját tartalmazza. Adja meg a forgatókönyvnek megfelelőket.
"activities":[
{
"name": "CopyActivityTemplate",
"type": "Copy",
"inputs": [
{
"referenceName": "<source dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<sink dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>",
<properties>
},
"sink": {
"type": "<sink type>"
<properties>
},
"translator":
{
"type": "TabularTranslator",
"columnMappings": "<column mapping>"
},
"dataIntegrationUnits": <number>,
"parallelCopies": <number>,
"enableStaging": true/false,
"stagingSettings": {
<properties>
},
"enableSkipIncompatibleRow": true/false,
"redirectIncompatibleRowSettings": {
<properties>
}
}
}
]
Szintaxis részletei
| Tulajdonság | Leírás | Kötelező? |
|---|---|---|
| típus | Egy Copy tevékenység esetén állítsa a következőre:Copy |
Igen |
| Bemenetek | Adja meg a létrehozott adathalmazt, amely a forrásadatokra mutat. A Copy tevékenység csak egyetlen bemenetet támogat. | Igen |
| Kimenetek | Adja meg azt az adatkészletet, amelyet létrehozott és amely a fogadó adatokra mutat. A Copy tevékenység csak egyetlen kimenetet támogat. | Igen |
| típusTulajdonságok | Adja meg a Copy tevékenység konfigurálásához használt tulajdonságokat. | Igen |
| adatforrás | Adja meg a másolási forrás típusát és az adatok beolvasásához szükséges tulajdonságokat. További információért lásd a „Másolási tevékenység tulajdonságai” című szakaszt a támogatott adattárakat és formátumokat felsoroló összekötő cikkben. |
Igen |
| fogadó | Adja meg a másolási fogadó típusát és az adatok írásához szükséges tulajdonságokat. További információért lásd a „Másolási tevékenység tulajdonságai” című szakaszt a támogatott adattárakat és formátumokat felsoroló összekötő cikkben. |
Igen |
| fordító | Explicit oszlopleképezések megadása forrásról fogadóra. Ez a tulajdonság akkor érvényes, ha az alapértelmezett másolási viselkedés nem felel meg az igényeinek. További információ: Sémaleképezés másolási tevékenységben. |
Nem |
| adatintegrációs egységek | Adjon meg egy mértéket, amely az Azure integrációs modul által az adatmásoláshoz használt energia mennyiségét jelöli. Ezeket az egységeket korábban felhőbeli adatáthelyezési egységeknek (DMU) nevezték. További információ: adatintegráció Egységek. |
Nem |
| párhuzamos másolatok | Adja meg azt a párhuzamosságot, amelyet a másolási folyamat használni szeretne, amikor adatokat olvas a forrásból, és adatokat ír a célhelyre. További információ: Párhuzamos másolás. |
Nem |
| megőriz | Adja meg, hogy meg szeretné-e őrizni a metaadatokat/ACL-eket az adatmásolás során. További információ: Metaadatok megőrzése. |
Nem |
| enableStaging átmeneti beállítások |
Adja meg, hogy az ideiglenes adatokat a Blob Storage-ban szeretné-e szakaszolni ahelyett, hogy közvetlenül másolja az adatokat a forrásból a fogadóba. A hasznos forgatókönyvekről és a konfiguráció részleteiről további információt a szakaszos másolatban talál. |
Nem |
| engedélyezze az inkompatibilis sorok kihagyását átirányításKompatibilisSorBeállítások |
Adja meg, hogyan kezelje az inkompatibilis sorokat, amikor adatokat másol a forrásból a célhelyre. További információ: Hibatűrés. |
Nem |
Figyelés
Az Azure Data Factoryben és a Synapse-pipeline-okban futó Copy tevékenységet vizuálisan és programfelületről is monitorozhatja. További részletekért lásd a Másolási tevékenység figyelése részt.
Inkrementális másolás
A Data Factory és a Synapse-folyamatok lehetővé teszik a deltaadatok fokozatos másolását egy forrásadattárból egy fogadó adattárba. További részletekért lásd az oktatóanyagot: Adatok növekményes másolása.
Teljesítmény és finomhangolás
A másolási tevékenység monitorozási felülete az egyes tevékenységfuttatások másolási teljesítménystatisztikáit jeleníti meg. A Copy tevékenység teljesítmény- és méretezhetőségi útmutatója azokat a főbb tényezőket ismerteti, amelyek befolyásolják az adatáthelyezés teljesítményét a Copy tevékenység keresztül. Emellett felsorolja a tesztelés során megfigyelt teljesítményértékeket, és ismerteti a Copy tevékenység teljesítményének optimalizálását.
Folytatás az utolsó sikertelen futtatás után
A másolási tevékenység támogatja a legutóbbi sikertelen futtatás után a folytatást, ha nagy méretű fájlokat másol változatlanul bináris formátumban a fájlalapú tárolók között, és úgy dönt, hogy megőrzi a mappa- és fájlhierarchiát a forrástól a célhelyre, például adatok migrálására az Amazon S3-ból az Azure Data Lake Storage Gen2-be. A következő fájlalapú összekötőkre vonatkozik: Amazon S3, Amazon S3 Kompatibilis StorageAzure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, Fájlrendszer, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage és SFTP.
A másolási tevékenység folytatását a következő két módon használhatja:
Tevékenységszintű újrapróbálkozás: Beállíthatja a másolási tevékenység újrapróbálkozásainak számát. A folyamat végrehajtása során, ha ez a másolási tevékenység sikertelen, a következő automatikus újrapróbálkozás a legutóbbi próba hibapontjától indul el.
Sikertelen tevékenység újrafuttatása: A folyamatvégrehajtás befejezése után az ADF felhasználói felület figyelési nézetben vagy programozott módon is elindíthatja a sikertelen tevékenység újrafuttatását. Ha a sikertelen tevékenység egy másolási tevékenység, a folyamat nemcsak ebből a tevékenységből fog újraindulni, hanem folytatódni fog az előző futtatás hibapontjától is.
Néhány megjegyzés:
- A folytatás fájlszinten történik. Ha a másolási tevékenység egy fájl másolása során meghiúsul, a következő futtatáskor a program újramásolja ezt a fájlt.
- A folytatás megfelelő működéséhez ne módosítsa a másolási tevékenység beállításait az újrafuttatások között.
- Amikor adatokat másol az Amazon S3, az Azure Blob, az Azure Data Lake Storage Gen2 és a Google Cloud Storage szolgáltatásból, a másolási tevékenység tetszőleges számú másolt fájlból folytatódhat. Jelenleg a többi fájlalapú összekötőknél, mint források esetén, a másolási tevékenység csak korlátozott számú fájl esetében támogatja a folytatást, amely általában több tízezres tartományban van, és a fájl elérési útjainak hosszától függ. Az ezt meghaladó számú fájlokat ismételten lemásolja az újrafuttatások során.
A bináris fájlmásoláson kívül más esetekben a másolási tevékenység újrafuttatása az elejétől kezdődik.
Megjegyzés
A legutóbb sikertelen futtatásból való újraindulást a saját üzemeltetésű integrációs futtatókörnyezeten keresztül most már csak a helyi integrációs modul 5.43.8935.2-es vagy újabb verziója támogatja.
Metaadatok megőrzése az adatokkal együtt
Adatok forrásrendszerből a célszámítógépre történő másolása során, például data lake migráció esetén, lehetőség van arra is, hogy a másolási tevékenység során a metaadatokat és az ACL-eket az adatokkal együtt megőrizze. Részletekért lásd: Metaadatok megőrzése.
Metaadatcímkék hozzáadása fájl alapú tárolóhoz
Ha a fogadó Azure Storage-alapú (Azure Data Lake Storage vagy Azure Blob Storage), dönthetünk úgy, hogy metaadatokat adunk hozzá a fájlokhoz. Ezek a metaadatok kulcs-érték párokként jelennek meg a fájltulajdonságok részeként. A fájlalapú fogadók minden típusához hozzáadhat dinamikus tartalmakat tartalmazó metaadatokat a folyamatparaméterek, a rendszerváltozók, a függvények és a változók használatával. Ezen kívül bináris fájlalapú fogadó esetén lehetősége van az Utolsó módosítás dátuma (a forrásfájlból) hozzáadására az $$LASTMODIFIED kulcsszóval, az egyéni értékeket pedig metaadatként a fogadófájlhoz.
Séma- és adattípus-leképezés
Tekintse meg a Séma- és adattípus-megfeleltetés című részt, hogy megtudja, hogyan képezi le a Copy művelet a forrásadatokat a célkörnyezetbe.
További oszlopok hozzáadása másolás közben
A forrásadattárból a fogadóba másolt adatok mellett beállíthatja, hogy további adatoszlopokat is hozzáadjon a fogadóba történő másoláshoz. Példa:
- Ha fájlalapú forrásból másol, a relatív fájl elérési útját egy sztring típusú további oszlopként tárolja annak érdekében, hogy nyomon követhesse, melyik fájlból származnak az adatok.
- A megadott forrásoszlop duplikálása másik oszlopként.
- Adjon hozzá egy ADF-kifejezést tartalmazó oszlopot az ADF rendszerváltozóinak, például a folyamatnévnek/folyamatazonosítónak a csatolásához, vagy más dinamikus érték tárolásához a felsőbb rétegbeli tevékenység kimenetéből.
- Adjon hozzá egy statikus értékkel rendelkező oszlopot az alsóbb rétegbeli felhasználás igényeinek megfelelően.
A másolási tevékenység forráslapján az alábbi konfiguráció található. Ezeket a további oszlopokat a másolási tevékenység sémaleképezésében is megfeleltetheti a szokásos módon a megadott oszlopnevek használatával.
Tipp.
Ez a funkció a legújabb adathalmaz-modellel működik. Ha nem látja ezt a beállítást a felhasználói felületen, próbáljon meg létrehozni egy új adatkészletet.
A programozott konfiguráláshoz adja hozzá a additionalColumns tulajdonságot a másolási tevékenység forrásában.
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| továbbicolumnok | Adjon hozzá további adatoszlopokat a fogadóba másolandó adatokhoz. A tömb alatti additionalColumns objektumok egy további oszlopot jelölnek. Ez name határozza meg az oszlop nevét, és az value oszlop adatértékét.Az engedélyezett adatértékek a következők: - $$FILEPATH - a fenntartott változó azt jelzi, hogy a forrásfájlok relatív elérési útja az adathalmazban megadott mappa elérési útjára van tárolva. Alkalmaz fájl alapú forrásra.- $$COLUMN:<source_column_name> - egy fenntartott változóminta azt jelzi, hogy a megadott forrásoszlopot egy másik oszlopként kell duplikálni- Kifejezés - Statikus érték |
Nem |
Példa:
"activities":[
{
"name": "CopyWithAdditionalColumns",
"type": "Copy",
"inputs": [...],
"outputs": [...],
"typeProperties": {
"source": {
"type": "<source type>",
"additionalColumns": [
{
"name": "filePath",
"value": "$$FILEPATH"
},
{
"name": "newColName",
"value": "$$COLUMN:SourceColumnA"
},
{
"name": "pipelineName",
"value": {
"value": "@pipeline().Pipeline",
"type": "Expression"
}
},
{
"name": "staticValue",
"value": "sampleValue"
}
],
...
},
"sink": {
"type": "<sink type>"
}
}
}
]
Tipp.
A további oszlopok konfigurálása után ne feledje el leképezni őket a célfogadóban, a Leképezés lapon.
Fogadótáblák automatikus generálása
Ha adatokat másol az SQL Database-be/Azure Synapse Analyticsbe, ha a céltábla nem létezik, a másolási tevékenység támogatja az automatikus létrehozást a forrásadatok alapján. Célja, hogy segítsen az adatok gyors betöltésében és az SQL Database/Azure Synapse Analytics kiértékelésében. Az adatbetöltés után az igényeinek megfelelően áttekintheti és módosíthatja a fogadótábla sémáját.
Ez a funkció akkor támogatott, ha adatokat másol bármely forrásból az alábbi fogadóadattárakba. A beállítást az ADF szerzői felhasználói felületén találja ->Copy tevékenység végpont ->Táblázat opció ->Tábla automatikus létrehozása, vagy a másolási tevékenység végpontjának tulajdonságán keresztül.tableOption
Hibatűrés
Alapértelmezés szerint a Copy tevékenység leállítja az adatok másolását, és hibát ad vissza, ha a forrásadatsorok nem kompatibilisek a fogadó adatsoraival. A másolás sikerességéhez konfigurálhatja a Copy tevékenység, hogy kihagyja és naplózza a nem kompatibilis sorokat, és csak a kompatibilis adatokat másolja. Részletekért tekintse meg Másolási tevékenység hibatűrését.
Adatkonzisztencia-ellenőrzés
Amikor adatokat helyez át a forrásból a céltárolóba, a másolási tevékenység lehetővé teszi az adatok konzisztenciájának további ellenőrzését annak érdekében, hogy az adatok ne csak a forrásból a céltárolóba legyenek másolva, hanem a forrás és a céltároló közötti konzisztenciát is ellenőrizze. Miután inkonzisztens fájlokat talált az adatáthelyezés során, megszakíthatja a másolási tevékenységet, vagy folytathatja a másolást a többivel, ha engedélyezi a hibatűrési beállítást a következetlen fájlok kihagyásához. A kihagyott fájlneveket a másolási tevékenység munkamenetnapló-beállításának engedélyezésével szerezheti be. Részletekért tekintse meg az adatkonzisztencia-ellenőrzést a másolási tevékenységben .
Munkamenetnapló
Naplózhatja a másolt fájlneveket, ami segíthet abban, hogy az adatok ne csak a forrásból a céltárba másolódnak sikeresen, hanem a másolási tevékenység munkamenetnaplóinak áttekintésével konzisztensek legyenek a forrás és a céltár között. További részletekért lásd: a munkamenet bejelentkezési másolási folyamatát.
Kapcsolódó tartalom
Tekintse meg az alábbi rövid útmutatókat, oktatóanyagokat és példákat: