Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A következőkre vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk bemutatja, hogyan másolhat adatokat az Amazon Simple Storage Service-ből (Amazon S3), és hogyan alakíthat át adatokat az Amazon S3-ban Adatfolyam használatával. További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.
Tipp.
Az Amazon S3-ból az Azure Storage-ba történő adatmigrálási forgatókönyvről további információt az Adatok migrálása az Amazon S3-ból az Azure Storage-ba című témakörben talál.
Támogatott képességek
Ez az Amazon S3-összekötő a következő képességeket támogatja:
| Támogatott képességek | integrációs modul |
|---|---|
| Másoló tevékenység (forrás/-) | (1) (2) |
| Adatfolyam leképezése (forrás/fogadó) | (1) |
| Keresési tevékenység | (1) (2) |
| GetMetadata-tevékenység | (1) (2) |
| Tevékenység törlése | (1) (2) |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
Ez az Amazon S3-összekötő támogatja a fájlok másolását, illetve a fájlok elemzését a támogatott fájlformátumokkal és tömörítési kodekekkel. Dönthet úgy is, hogy a másolás során megőrzi a fájl metaadatait. Az összekötő az AWS Signature 4-es verziójával hitelesíti az S3-nak küldött kérelmeket.
Tipp.
Ha bármilyen S3-kompatibilis tárolószolgáltatóról szeretne adatokat másolni, tekintse meg az Amazon S3-kompatibilis tárolót.
Szükséges engedélyek
Ha adatokat szeretne másolni az Amazon S3-ból, győződjön meg arról, hogy megkapta a következő engedélyeket az Amazon S3 objektumműveletekhez: s3:GetObject és s3:GetObjectVersion.
Ha a Data Factory felhasználói felületét használja a létrehozáshoz, további s3:ListAllMyBuckets és s3:ListBucket/s3:GetBucketLocation engedélyekre van szükség olyan műveletekhez, mint a társított szolgáltatáshoz való kapcsolódás tesztelése és a gyökérszintű böngészés. Ha nem szeretné megadni ezeket az engedélyeket, a felhasználói felületen választhatja a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget.
Az Amazon S3-engedélyek teljes listájáért tekintse meg az Engedélyek megadása az AWS-webhelyen található szabályzatokban című témakört.
Első lépések
A másolási tevékenység végrehajtásához egy folyamattal használhatja az alábbi eszközök vagy SDK-k egyikét:
- Adatok másolása eszköz
- Azure Portál
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Azure Resource Manager-sablon
Amazon Simple Storage Service (S3) társított szolgáltatás létrehozása felhasználói felületen
Az alábbi lépéseket követve hozzon létre egy Amazon S3 társított szolgáltatást az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:
Keresse meg az Amazont, és válassza ki az Amazon S3-összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Az összekötő konfigurációjának részletei
Az alábbi szakaszok az Amazon S3-ra jellemző Data Factory-entitások meghatározásához használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
Amazon S3 társított szolgáltatás esetén a következő tulajdonságok támogatottak:
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | A típustulajdonságot AmazonS3 értékre kell állítani. | Igen |
| hitelesítési típus | Adja meg az Amazon S3-hoz való csatlakozáshoz használt hitelesítési típust. Dönthet úgy, hogy hozzáférési kulcsokat használ egy AWS-identitás- és hozzáférés-kezelési (IAM-) fiókhoz, vagy ideiglenes biztonsági hitelesítő adatokat. Az engedélyezett értékek a következők: AccessKey (alapértelmezett) és TemporarySecurityCredentials. |
Nem |
| hozzáférésiKulcsAzonosító | A titkos hozzáférési kulcs azonosítója. | Igen |
| „secretAccessKey” (titkos hozzáférési kulcs) | Maga a titkos hozzáférési kulcs. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. | Igen |
| sessionToken | Ideiglenes biztonsági hitelesítő adatok hitelesítése esetén alkalmazható. Megtudhatja, hogyan kérhet ideiglenes biztonsági hitelesítő adatokat az AWS-től. Megjegyzés: Az AWS ideiglenes hitelesítő adatai a beállítások alapján 15 perc és 36 óra között járnak le. Győződjön meg arról, hogy a hitelesítő adatok érvényesek a tevékenységek végrehajtásakor, különösen az üzembe helyezett számítási feladatok esetében – például rendszeresen frissítheti és tárolhatja az Azure Key Vaultban. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. |
Nem |
| szolgáltatási URL | Adja meg az egyéni S3-végpontot https://<service url>.Csak akkor módosítsa, ha másik szolgáltatásvégpontot szeretne kipróbálni, vagy https és http között szeretne váltani. |
Nem |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | Nem |
Példa: hozzáférési kulcs hitelesítése
{
"name": "AmazonS3LinkedService",
"properties": {
"type": "AmazonS3",
"typeProperties": {
"accessKeyId": "<access key id>",
"secretAccessKey": {
"type": "SecureString",
"value": "<secret access key>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példa: ideiglenes biztonsági igazolványok használata
{
"name": "AmazonS3LinkedService",
"properties": {
"type": "AmazonS3",
"typeProperties": {
"authenticationType": "TemporarySecurityCredentials",
"accessKeyId": "<access key id>",
"secretAccessKey": {
"type": "SecureString",
"value": "<secret access key>"
},
"sessionToken": {
"type": "SecureString",
"value": "<session token>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Adathalmaz tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja.
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az Amazon S3 location beállításai között az alábbi tulajdonságok vannak támogatva egy formátumalapú adatkészletnél:
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | Az adathalmaz type tulajdonságát locationAmazonS3Location értékre kell állítani. |
Igen |
| bucketName | Az S3 tároló neve. | Igen |
| folderPath | Az adott gyűjtő alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | Nem |
| fájlnév | A megadott tároló és mappa elérési útja alatti fájlnév. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | Nem |
| verzió | Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva, a rendszer lekéri a legújabb verziót. | Nem |
Példa:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "AmazonS3Location",
"bucketName": "bucketname",
"folderPath": "folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz az Amazon S3-forrás által támogatott tulajdonságok listáját tartalmazza.
Amazon S3 mint forrástípus
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az Amazon S3 formátumalapú másolási forrás beállításai között storeSettings az alábbi tulajdonságok támogatottak:
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | Az típus tulajdonságot a storeSettings alá kell állítani AmazonS3ReadSettings értékre. |
Igen |
| Keresse meg a másolandó fájlokat: | ||
| 1. LEHETŐSÉG: statikus elérési út |
Másolja ki az adathalmazban megadott tárolóból vagy mappa/fájl elérési útvonaláról. Ha az összes fájlt egy vödörből vagy mappából szeretné másolni, adja meg a következőt wildcardFileName és *. |
|
| 2. LEHETŐSÉG: S3 előtag előtag |
A megadott S3 vödörhöz tartozó kulcsnevek előtagjai az adathalmazban vannak konfigurálva a forrás S3 fájlok szűréséhez. Az S3-kulcsok, amelyek nevével bucket_in_dataset/this_prefix kezdődnek, ki vannak jelölve. Az S3 szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint a helyettesítő karakterekkel működő szűrő.Ha előtagot használ, és úgy dönt, hogy a hierarchiát megőrző fájlalapú célhelyre másol, vegye figyelembe, hogy az előtag utolsó "/" utáni alútvonal megmarad. Például, ha rendelkezik egy forrással bucket/folder/subfolder/file.txt, és az előtagot a következőképpen konfiguráljafolder/sub, akkor a megőrzött fájl elérési útjasubfolder/file.txt. |
Nem |
| 3. LEHETŐSÉG: helyettesítő karakter - helyettesítő karakterekFolderPath |
A mappa elérési útja helyettesítő karakterekkel az adott tároló alatt, amely egy adatkészletben van beállítva a forrásmappák szűrésére. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). Ha a mappa neve helyettesítő karaktert vagy magát az escape karaktert tartalmaz, használja a ^-et a kijutáshoz. További példák a mappa- és fájlszűrő példákban. |
Nem |
| 3. OPCIÓ: helyettesítő karakter - wildcardFileName |
A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példák a mappa- és fájlszűrő példákban. |
Igen |
| 4. LEHETŐSÉG: a fájlok listája - fileListPath |
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza az ön által másolni kívánt fájlok listáját, minden sorban egy fájl szerepel, amely az adatkészletben konfigurált elérési út relatív útja. Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. Nézzen meg további példákat a Fájllista példákban. |
Nem |
| További beállítások: | ||
| rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha rekurzív értéke igaz, és a cél egy fájl-alapú tár, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a célban. Az engedélyezett értékek true (alapértelmezett) és false. Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
Nem |
| fájlokTörléseBefejezésUtán | Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak. Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis. |
Nem |
| módosítottDátumIdőKezdés | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosítási idejük nagyobb vagy egyenlő, mint modifiedDatetimeStart, és kisebb, mint modifiedDatetimeEnd. Az idő a "2018-12-01T05:00:00Z" formátumú UTC időzónára lesz alkalmazva. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
Nem |
| módosítottDátumIdőVég | Lásd fentebb. | Nem |
| enablePartitionDiscovery | Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket. Az engedélyezett értékek a következők: hamis (alapértelmezett) és igaz. |
Nem |
| partitionRootPath | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. Ha nincs megadva, alapértelmezés szerint – Ha fájlútvonalat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út. – Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal. - Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal. Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja: - Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot. |
Nem |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
Példa:
"activities":[
{
"name": "CopyFromAmazonS3",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "AmazonS3ReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mappa- és fájlszűrő példák
Ez a szakasz ismerteti, hogyan viselkedik a mappa elérési útja és a fájlnév helyettesítő karakter szűrők használatakor.
| gyűjtő | kulcs | rekurzív | A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri) |
|---|---|---|---|
| gyűjtő | Folder*/* |
false | gyűjtő FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
| gyűjtő | Folder*/* |
igaz | gyűjtő FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikMappaB File6.csv |
| gyűjtő | Folder*/*.csv |
false | gyűjtő FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikMappaB File6.csv |
| gyűjtő | Folder*/*.csv |
igaz | gyűjtő FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikMappaB File6.csv |
Példák fájllistára
Ez a szakasz a fájllista elérési útjának Copy tevékenység forrásban való használatának eredő viselkedését ismerteti.
Tegyük fel, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:
| Minta forrásstruktúra | Tartalom a FileListToCopy.txt fájlban | Konfiguráció |
|---|---|---|
| gyűjtő FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv Metaadatok FileListToCopy.txt |
File1.csv Almappák1/File3.csv Almappák1/File5.csv |
Adatkészletben: - Vödör: bucket- Mappa elérési útja: FolderAA másolási tevékenység forrásában: - Fájllista elérési útja: bucket/Metadata/FileListToCopy.txt A fájllista útvonala egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját, minden sorban egy fájl, az adathalmazban beállított elérési útvonalhoz képest relatív úttal. |
Metaadatok megőrzése másolás közben
Amikor fájlokat másol az Amazon S3-ból az Azure Data Lake Storage Gen2-be vagy az Azure Blob Storage-ba, dönthet úgy, hogy az adatokkal együtt megőrzi a fájl metaadatait. További információ a metaadatok megőrzéséről.
Adatfolyam-tulajdonságok leképezése
A leképezési adatfolyamok adatainak átalakításakor a következő formátumokban olvashat fájlokat az Amazon S3-ból:
A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban.
Forrásátalakítás
A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat az Amazon S3-ban. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.
Helyettesítő karakterek elérési útjai: A helyettesítő karakterek mintája arra utasítja a szolgáltatást, hogy egyetlen forrásátalakítás során végighaladjon az egyes egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a meglévő helyettesítő karakterminta fölé rámutatáskor megjelenő pluszjellel.
A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. A helyettesítő karakter elérési útjának ezért tartalmaznia kell a mappa elérési útját a gyökérmappától kezdve.
Példák helyettesítő karakterekre:
*Bármilyen karakterkészletet jelöl.**Rekurzív könyvtárbe ágyazást jelöl.?Egy karaktert cserél le.[]Tartalmaz egy vagy több karaktert a zárójelek között./data/sales/**/*.csvLekéri az összes .csv fájlt az /data/sales területen./data/sales/20??/**/Lekéri az összes fájlt a 20. századból./data/sales/*/*/*.csvLekéri .csv fájlokat két szinten az /data/sales alatt./data/sales/2004/*/12/[XY]1?.csv2004 decemberében lekéri az összes .csv fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik.
Partíció gyökérútvonala: Ha a fájlforrásban key=value formátumú particionált mappák vannak (például year=2019), akkor a partíciómappa fa legfelső szintjét hozzárendelheti az adatfolyam egy oszlopnevéhez.
Először állítson be egy helyettesítő jelet, hogy magában foglalja a particionált mappák összes elérési útját, valamint az elolvasni kívánt fájlokat.
A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, láthatja, hogy a szolgáltatás hozzáadja az egyes mappaszinteken található feloldott partíciókat.
Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.
A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét az adatok egyik oszlopában. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.
Befejezés után: Válassza ki, hogy az adatfolyam futtatása után nem szeretne semmit tenni a forrásfájllal, törli a forrásfájlt, vagy áthelyezi a forrásfájlt. Az áthelyezés elérési útjai relatívek.
Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.
Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis a következőképpen fog kinézni:
/data/sales/20??/**/*.csv
A következő módon adhatja meg a "from" értéket:
/data/sales
A "to" értéket pedig a következő módon adhatja meg:
/backup/priorSales
Ebben az esetben az összes fájlt, amely a /data/sales alatt található, áthelyezik a /backup/priorSales-be.
Megjegyzés
A fájlműveletek csak akkor futnak, ha egy csővezeték futtatásból (például csővezeték hibakereséséből vagy végrehajtási futtatásból) indítja el az adatfolyamot, amely a csővezetékben található Adatfolyam Végrehajtása tevékenységet használja. A fájlműveletek nem Adatfolyam hibakeresési módban futnak.
Szűrés utoljára módosítva: A legutóbb módosított fájlok dátumtartományának megadásával szűrheti a feldolgozott fájlokat. Minden dátumidő UTC-ben van.
Keresési tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.
GetMetadata tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a GetMetadata tevékenységét.
Tevékenységtulajdonságok törlése
A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet.
Régi modellek
Megjegyzés
A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy használja a korábban említett új modellt. A szerzői felhasználói felület az új modell létrehozására váltott.
Régi adathalmaz-modell
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | Az adathalmaz típustulajdonságának AmazonS3Object értékre kell állítania. | Igen |
| bucketName | Az S3 tároló neve. A helyettesítő karakter szűrője nem támogatott. | Igen a Másolás vagy keresés tevékenységhez, nem a GetMetadata tevékenységhez |
| kulcs | Az S3 objektumkulcs neve vagy helyettesítő karakter szűrője a megadott gyűjtő alatt. Csak akkor érvényes, ha az előtag tulajdonság nincs megadva. A helyettesítő karakterek szűrője mind a mapparész, mind a fájlnév rész esetében támogatott. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg).- 1. példa: "key": "rootfolder/subfolder/*.csv"- 2. példa: "key": "rootfolder/subfolder/???20180427.txt"További példák a mappa- és fájlszűrő példákban. A feloldás akkor használható ^ , ha a tényleges mappában vagy fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. |
Nem |
| előképző | Az S3 objektumkulcs előtagja. A program kijelöli azokat az objektumokat, amelyek kulcsai ezzel az előtaggal kezdődnek. Csak akkor érvényes, ha a kulcstulajdonság nincs megadva. | Nem |
| verzió | Az S3 objektum verziója, ha engedélyezve van az S3 verziószámozása. Ha nincs megadva verzió, a rendszer lekéri a legújabb verziót. | Nem |
| módosítottDátumIdőKezdés | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő modifiedDatetimeStart és kisebb modifiedDatetimeEnd. Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél. |
Nem |
| módosítottDátumIdőVég | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosítási idejük nagyobb vagy egyenlő, mint modifiedDatetimeStart, és kisebb, mint modifiedDatetimeEnd. Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással lesz az adatáthelyezés általános teljesítményére, ha nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél. |
Nem |
| formátum | Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban. Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, Orc formátum és Parquet formátum szakaszok. |
Nem (csak bináris másolási forgatókönyv esetén) |
| tömörítés | Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek. A támogatott típusok a GZip, a Deflate, a BZip2 és a ZipDeflate. A támogatott szintek optimálisak és leggyorsabbak. |
Nem |
Tipp.
A mappa alatti összes fájl másolásához adja meg a gyűjtő nevét és a mapparész előtagját .
Ha egy adott nevű fájlt szeretne másolni, adja meg a gyűjtő nevét és a mapparész kulcsát , valamint a fájlnevet.
A fájlok egy részhalmazának mappa alatti másolásához adja meg a gyűjtőnév és a mapparész kulcsának nevét, valamint a helyettesítő karakterszűrőt.
Példa: előtag használata
{
"name": "AmazonS3Dataset",
"properties": {
"type": "AmazonS3Object",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"bucketName": "testbucket",
"prefix": "testFolder/test",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Példa: kulcs és verzió használata (nem kötelező)
{
"name": "AmazonS3Dataset",
"properties": {
"type": "AmazonS3",
"linkedServiceName": {
"referenceName": "<Amazon S3 linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"bucketName": "testbucket",
"key": "testFolder/testfile.csv.gz",
"version": "XXXXXXXXXczm0CJajYkHf0_k6LhBmkcL",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Örökölt forrásmodell a Másolási tevékenység számára
| Tulajdonság | Leírás | Kötelező |
|---|---|---|
| típus | A Copy tevékenység forrás típustulajdonságának a FileSystemSource értékre kell állítania. | Igen |
| rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a célhely egy fájlalapú tárhely, nem kerül sor üres mappa vagy almappa másolására vagy létrehozására a célhelyen. Az engedélyezett értékek true (alapértelmezett) és false. |
Nem |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
Példa:
"activities":[
{
"name": "CopyFromAmazonS3",
"type": "Copy",
"inputs": [
{
"referenceName": "<Amazon S3 input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "FileSystemSource",
"recursive": true
},
"sink": {
"type": "<sink type>"
}
}
}
]
Kapcsolódó tartalom
Azoknak az adattáraknak a listáját, amelyeket a Copy tevékenység forrásként és fogadóként támogat, tekintse meg a támogatott adattárakat.