Adatok másolása és átalakítása az Amazon Simple Storage Service-ben az Azure Data Factory vagy az Azure Synapse Analytics használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk bemutatja, hogyan másolhat adatokat az Amazon Simple Storage Service-ből (Amazon S3), és hogyan alakíthat át adatokat az Amazon S3-ban Adatfolyam használatával. További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.
Tipp.
Az Amazon S3-ból az Azure Storage-ba történő adatmigrálási forgatókönyvről további információt az Adatok migrálása az Amazon S3-ból az Azure Storage-ba című témakörben talál.
Támogatott képességek
Ez az Amazon S3-összekötő a következő képességeket támogatja:
Támogatott képességek | IR |
---|---|
Copy tevékenység (forrás/-) | (1) (2) |
Adatfolyam leképezése (forrás/fogadó) | (1) |
Keresési tevékenység | (1) (2) |
GetMetadata-tevékenység | (1) (2) |
Tevékenység törlése | (1) (2) |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
Ez az Amazon S3-összekötő támogatja a fájlok másolását, illetve a fájlok elemzését a támogatott fájlformátumokkal és tömörítési kodekekkel. Dönthet úgy is, hogy a másolás során megőrzi a fájl metaadatait. Az összekötő az AWS Signature 4-es verziójával hitelesíti az S3-nak küldött kérelmeket.
Tipp.
Ha bármilyen S3-kompatibilis tárolószolgáltatóról szeretne adatokat másolni, tekintse meg az Amazon S3-kompatibilis tárolót.
Szükséges engedélyek
Ha adatokat szeretne másolni az Amazon S3-ból, győződjön meg arról, hogy megkapta a következő engedélyeket az Amazon S3 objektumműveletekhez: s3:GetObject
és s3:GetObjectVersion
.
Ha a Data Factory felhasználói felületét használja a létrehozáshoz, további s3:ListAllMyBuckets
és s3:ListBucket
/s3:GetBucketLocation
engedélyekre van szükség olyan műveletekhez, mint a társított szolgáltatáshoz való kapcsolódás tesztelése és a gyökérszintű böngészés. Ha nem szeretné megadni ezeket az engedélyeket, a felhasználói felületen választhatja a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget.
Az Amazon S3-engedélyek teljes listájáért tekintse meg az Engedélyek megadása az AWS-webhelyen található szabályzatokban című témakört.
Első lépések
A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:
- Az Adatok másolása eszköz
- Az Azure Portal
- A .NET SDK
- A Python SDK
- Azure PowerShell
- A REST API
- Az Azure Resource Manager-sablon
Amazon Simple Storage Service (S3) társított szolgáltatás létrehozása felhasználói felületen
Az alábbi lépéseket követve hozzon létre egy Amazon S3 társított szolgáltatást az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:
Keresse meg az Amazont, és válassza ki az Amazon S3-összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Az összekötő konfigurációjának részletei
Az alábbi szakaszok az Amazon S3-ra jellemző Data Factory-entitások meghatározásához használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
Amazon S3 társított szolgáltatás esetén a következő tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | A típustulajdonságot AmazonS3 értékre kell állítani. | Igen |
authenticationType | Adja meg az Amazon S3-hoz való csatlakozáshoz használt hitelesítési típust. Dönthet úgy, hogy hozzáférési kulcsokat használ egy AWS-identitás- és hozzáférés-kezelési (IAM-) fiókhoz, vagy ideiglenes biztonsági hitelesítő adatokat. Az engedélyezett értékek a következők: AccessKey (alapértelmezett) és TemporarySecurityCredentials . |
Nem |
accessKeyId | A titkos hozzáférési kulcs azonosítója. | Igen |
secretAccessKey | Maga a titkos hozzáférési kulcs. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. | Igen |
sessionToken | Ideiglenes biztonsági hitelesítő adatok hitelesítése esetén alkalmazható. Megtudhatja, hogyan kérhet ideiglenes biztonsági hitelesítő adatokat az AWS-től. Megjegyzés: Az AWS ideiglenes hitelesítő adatai a beállítások alapján 15 perc és 36 óra között járnak le. Győződjön meg arról, hogy a hitelesítő adatok érvényesek a tevékenységek végrehajtásakor, különösen az üzembe helyezett számítási feladatok esetében – például rendszeresen frissítheti és tárolhatja az Azure Key Vaultban. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. |
Nem |
serviceUrl | Adja meg az egyéni S3-végpontot https://<service url> .Csak akkor módosítsa, ha másik szolgáltatásvégpontot szeretne kipróbálni, vagy https és http között szeretne váltani. |
Nem |
connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | Nem |
Példa: hozzáférési kulcs hitelesítése
{
"name": "AmazonS3LinkedService",
"properties": {
"type": "AmazonS3",
"typeProperties": {
"accessKeyId": "<access key id>",
"secretAccessKey": {
"type": "SecureString",
"value": "<secret access key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példa: ideiglenes biztonsági hitelesítő adatok hitelesítése
{
"name": "AmazonS3LinkedService",
"properties": {
"type": "AmazonS3",
"typeProperties": {
"authenticationType": "TemporarySecurityCredentials",
"accessKeyId": "<access key id>",
"secretAccessKey": {
"type": "SecureString",
"value": "<secret access key>"
},
"sessionToken": {
"type": "SecureString",
"value": "<session token>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Adathalmaz tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja.
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az Amazon S3 formátumalapú adatkészlet beállításai között location
az alábbi tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az adathalmaz típustulajdonságának location AmazonS3Location értékre kell állítania. |
Igen |
bucketName | Az S3 gyűjtő neve. | Igen |
folderPath | Az adott gyűjtő alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | Nem |
fileName | A megadott gyűjtő és mappa elérési útja alatti fájlnév. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | Nem |
Verzió | Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva, a rendszer lekéri a legújabb verziót. | Nem |
Példa:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "AmazonS3Location",
"bucketName": "bucketname",
"folderPath": "folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Amazon S3-forrás által támogatott tulajdonságok listáját tartalmazza.
Amazon S3 mint forrástípus
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az Amazon S3 formátumalapú másolási forrás beállításai között storeSettings
az alábbi tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az alatta lévő storeSettings típustulajdonságnak AmazonS3ReadSettings értékre kell állítania. |
Igen |
Keresse meg a másolandó fájlokat: | ||
1. LEHETŐSÉG: statikus elérési út |
Másolja ki az adathalmazban megadott gyűjtőből vagy mappa/fájl elérési útjából. Ha az összes fájlt egy gyűjtőből vagy mappából szeretné másolni, adja meg wildcardFileName a következőt * is: . |
|
2. LEHETŐSÉG: S3 előtag -előképző |
Az S3-kulcs nevének előtagja az adathalmazban konfigurált adott gyűjtőben a forrás S3-fájlok szűréséhez. Az S3-kulcsok, amelyek nevével bucket_in_dataset/this_prefix kezdődnek, ki vannak jelölve. Az S3 szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint a helyettesítő karakterek szűrői.Ha előtagot használ, és úgy dönt, hogy a hierarchiát megőrző fájlalapú fogadóba másol, vegye figyelembe, hogy az előtag utolsó "/" előtagja utáni alelérési útvonal megmarad. Például rendelkezik forrásokkal bucket/folder/subfolder/file.txt , és konfigurálja az előtagot a következőképpenfolder/sub , majd a megőrzött fájl elérési útja.subfolder/file.txt |
Nem |
3. LEHETŐSÉG: helyettesítő karakter - helyettesítő karakterekFolderPath |
A mappa elérési útja helyettesítő karakterekkel az adott gyűjtő alatt, amely egy adatkészletben konfigurálva van a forrásmappák szűrésére. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik. További példák a mappa- és fájlszűrő példákban. |
Nem |
3. LEHETŐSÉG: helyettesítő karakter - wildcardFileName |
A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példák a mappa- és fájlszűrő példákban. |
Igen |
4. LEHETŐSÉG: a fájlok listája - fileListPath |
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely az adathalmazban konfigurált elérési út relatív elérési útja. Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példák a Fájllista példákban. |
Nem |
További beállítások: | ||
rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a fogadó fájlalapú tároló, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis. Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath . |
Nem |
deleteFilesAfterCompletion | Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak. Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis. |
Nem |
modifiedDatetimeStart | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő a "2018-12-01T05:00:00Z" formátumú UTC időzónára lesz alkalmazva. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath . |
Nem |
modifiedDatetimeEnd | Lásd fentebb. | Nem |
enablePartitionDiscovery | Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket. Az engedélyezett értékek hamisak (alapértelmezett) és igazak. |
Nem |
partitionRootPath | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. Ha nincs megadva, alapértelmezés szerint – Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út. – Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal. - Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal. Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja: - Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot month day hoz létre, valamint a "08" és a "27" értéket.– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot. |
Nem |
maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
Példa:
"activities":[
{
"name": "CopyFromAmazonS3",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "AmazonS3ReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mappa- és fájlszűrő példák
Ez a szakasz a mappa elérési útjának és a fájlnévnek helyettesítő karaktereket tartalmazó viselkedését ismerteti.
vödör | kulcs | rekurzív | A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri) |
---|---|---|---|
vödör | Folder*/* |
false | vödör FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
vödör | Folder*/* |
true | vödör FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
vödör | Folder*/*.csv |
false | vödör FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
vödör | Folder*/*.csv |
true | vödör FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
Példák fájllistára
Ez a szakasz a fájllista elérési útjának Copy tevékenység forrásban való használatának eredő viselkedését ismerteti.
Tegyük fel, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:
Minta forrásstruktúra | Tartalom a FileListToCopy.txt | Konfiguráció |
---|---|---|
vödör FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv Metaadatok FileListToCopy.txt |
File1.csv Almappák1/File3.csv Almappák1/File5.csv |
Adatkészletben: -Vödör: bucket - Mappa elérési útja: FolderA Copy tevékenység forrásban: - Fájllista elérési útja: bucket/Metadata/FileListToCopy.txt A fájllista elérési útja egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját, soronként egy fájlt, az adathalmazban konfigurált elérési út relatív elérési útjával. |
Metaadatok megőrzése másolás közben
Amikor fájlokat másol az Amazon S3-ból az Azure Data Lake Storage Gen2-be vagy az Azure Blob Storage-ba, dönthet úgy, hogy az adatokkal együtt megőrzi a fájl metaadatait. További információ a metaadatok megőrzéséről.
Adatfolyam-tulajdonságok leképezése
A leképezési adatfolyamok adatainak átalakításakor a következő formátumokban olvashat fájlokat az Amazon S3-ból:
A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban.
Forrásátalakítás
A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat az Amazon S3-ban. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.
Helyettesítő karakterek elérési útjai: A helyettesítő karakterek mintája arra utasítja a szolgáltatást, hogy egyetlen forrásátalakítás során végighaladjon az egyes egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a meglévő helyettesítő karakterminta fölé rámutatáskor megjelenő pluszjellel.
A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. A helyettesítő karakter elérési útjának ezért tartalmaznia kell a gyökérmappából származó mappa elérési útját is.
Példák helyettesítő karakterekre:
*
Bármilyen karakterkészletet jelöl.**
Rekurzív könyvtárbe ágyazást jelöl.?
Egy karaktert cserél le.[]
Egy vagy több karaktert tartalmaz a szögletes zárójelekben./data/sales/**/*.csv
Lekéri az összes .csv fájlt az /data/sales területen./data/sales/20??/**/
Lekéri az összes fájlt a 20./data/sales/*/*/*.csv
Lekéri .csv fájlokat két szinten az /data/sales alatt./data/sales/2004/*/12/[XY]1?.csv
2004 decemberében lekéri az összes .csv fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik.
Partíció gyökérútvonala: Ha a fájlforrásban key=value
vannak olyan particionált mappák, year=2019
amelyek formátuma (például), akkor a partíciómappa fának felső szintjét hozzárendelheti az adatfolyam egyik oszlopnevére.
Először állítson be egy helyettesítő karaktert, hogy tartalmazza a particionált mappák összes elérési útját, valamint az elolvasni kívánt levélfájlokat.
A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, láthatja, hogy a szolgáltatás hozzáadja az egyes mappaszinteken található feloldott partíciókat.
Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.
A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét az adatok egyik oszlopában. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.
Befejezés után: Válassza ki, hogy az adatfolyam futtatása után nem szeretne semmit tenni a forrásfájllal, törli a forrásfájlt, vagy áthelyezi a forrásfájlt. Az áthelyezés elérési útjai relatívek.
Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.
Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis a következőképpen fog kinézni:
/data/sales/20??/**/*.csv
A következő módon adhatja meg a "from" értéket:
/data/sales
A "to" értéket pedig a következő módon adhatja meg:
/backup/priorSales
Ebben az esetben a rendszer az alattuk /data/sales
forrásként kapott összes fájlt áthelyezi a fájlba /backup/priorSales
.
Feljegyzés
A fájlműveletek csak akkor futnak, ha egy folyamatfuttatásból (folyamat hibakereséséből vagy végrehajtási futtatásából) indítja el az adatfolyamot, amely a folyamat végrehajtási Adatfolyam tevékenységét használja. A fájlműveletek nem Adatfolyam hibakeresési módban futnak.
Szűrés utoljára módosítva: A legutóbb módosított fájlok dátumtartományának megadásával szűrheti a feldolgozott fájlokat. Minden dátumidő UTC-ben van.
Keresési tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.
GetMetadata tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a GetMetadata tevékenységét.
Tevékenységtulajdonságok törlése
A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet.
Örökölt modellek
Feljegyzés
A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy használja a korábban említett új modellt. A szerzői felhasználói felület az új modell létrehozására váltott.
Örökölt adathalmaz-modell
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az adathalmaz típustulajdonságának AmazonS3Object értékre kell állítania. | Igen |
bucketName | Az S3 gyűjtő neve. A helyettesítő karakter szűrője nem támogatott. | Igen a Másolás vagy keresés tevékenységhez, nem a GetMetadata tevékenységhez |
kulcs | Az S3 objektumkulcs neve vagy helyettesítő karakter szűrője a megadott gyűjtő alatt. Csak akkor érvényes, ha az előtag tulajdonság nincs megadva. A helyettesítő karakterek szűrője mind a mapparész, mind a fájlnév rész esetében támogatott. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg).- 1. példa: "key": "rootfolder/subfolder/*.csv" - 2. példa: "key": "rootfolder/subfolder/???20180427.txt" További példa a mappa- és fájlszűrő példákban. A feloldás akkor használható ^ , ha a tényleges mappában vagy fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. |
Nem |
előképző | Az S3 objektumkulcs előtagja. A program kijelöli azokat az objektumokat, amelyek kulcsai ezzel az előtaggal kezdődnek. Csak akkor érvényes, ha a kulcstulajdonság nincs megadva. | Nem |
Verzió | Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva verzió, a rendszer lekéri a legújabb verziót. | Nem |
modifiedDatetimeStart | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél. |
Nem |
modifiedDatetimeEnd | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél. |
Nem |
format | Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban. Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, Orc formátum és Parquet formátum szakaszok. |
Nem (csak bináris másolási forgatókönyv esetén) |
tömörítés | Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek. A támogatott típusok a GZip, a Deflate, a BZip2 és a ZipDeflate. A támogatott szintek optimálisak és leggyorsabbak. |
Nem |
Tipp.
A mappa alatti összes fájl másolásához adja meg a gyűjtő nevét és a mapparész előtagját .
Ha egy adott nevű fájlt szeretne másolni, adja meg a gyűjtő nevét és a mapparész kulcsát , valamint a fájlnevet.
A fájlok egy részhalmazának mappa alatti másolásához adja meg a gyűjtőnév és a mapparész kulcsának nevét, valamint a helyettesítő karakterszűrőt.
Példa: előtag használata
{
"name": "AmazonS3Dataset",
"properties": {
"type": "AmazonS3Object",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"bucketName": "testbucket",
"prefix": "testFolder/test",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Példa: kulcs és verzió használata (nem kötelező)
{
"name": "AmazonS3Dataset",
"properties": {
"type": "AmazonS3",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"bucketName": "testbucket",
"key": "testFolder/testfile.csv.gz",
"version": "XXXXXXXXXczm0CJajYkHf0_k6LhBmkcL",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Örökölt forrásmodell a Copy tevékenység
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | A Copy tevékenység forrás típustulajdonságának a FileSystemSource értékre kell állítania. | Igen |
rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis. |
Nem |
maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
Példa:
"activities":[
{
"name": "CopyFromAmazonS3",
"type": "Copy",
"inputs": [
{
"referenceName": "<Amazon S3 input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "FileSystemSource",
"recursive": true
},
"sink": {
"type": "<sink type>"
}
}
}
]
Kapcsolódó tartalom
Azoknak az adattáraknak a listáját, amelyeket a Copy tevékenység forrásként és fogadóként támogat, tekintse meg a támogatott adattárakat.
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: