Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
A következőkre vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tip
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk azt ismerteti, hogyan másolhat adatokat a Google Cloud Storage-ból (GCS). További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.
Támogatott képességek
Ez a Google Cloud Storage-összekötő a következő képességeket támogatja:
| Támogatott képességek | integrációs modul |
|---|---|
| A másolási tevékenység (forrás/-) | (1) (2) |
| Adatfolyam leképezése (forrás/-) | ① |
| Keresési tevékenység | (1) (2) |
| GetMetadata-tevékenység | (1) (2) |
| Tevékenység törlése | (1) (2) |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
Ez a Google Cloud Storage-összekötő támogatja a fájlok másolását, illetve a fájlok elemzését a támogatott fájlformátumokkal és tömörítési kodekekkel. Kihasználja a GCS S3-kompatibilis együttműködési lehetőségeit.
Prerequisites
A Google Cloud Storage-fiókhoz a következő beállítás szükséges:
- Együttműködés engedélyezése a Google Cloud Storage-fiókhoz
- Állítsa be az alapértelmezett projektet, amely a cél GCS-gyűjtőből másolni kívánt adatokat tartalmazza.
- Hozzon létre egy szolgáltatásfiókot, és határozza meg a megfelelő engedélyeket a felhőbeli IAM használatával a GCP-n.
- Hozza létre a szolgáltatásfiók hozzáférési kulcsait.
Szükséges engedélyek
Ha adatokat szeretne másolni a Google Cloud Storage-ból, győződjön meg arról, hogy a következő engedélyekkel rendelkezik az objektumműveletekhez: storage.objects.get és storage.objects.list.
Ha felhasználói felületet használ a létrehozáshoz, az engedély szükséges olyan storage.buckets.list műveletekhez, mint a társított szolgáltatáshoz való kapcsolat tesztelése és a gyökérből való böngészés. Ha nem szeretné megadni ezt az engedélyt, a felhasználói felületen választhatja a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget.
A Google Cloud Storage-szerepkörök és a kapcsolódó engedélyek teljes listájáért tekintse meg a Cloud Storage IAM-szerepköreit a Google Cloud webhelyén.
Kezdő lépések
A másolási tevékenység végrehajtásához egy folyamattal használhatja az alábbi eszközök vagy SDK-k egyikét:
- Adatok másolása eszköz
- Azure Portál
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Azure Resource Manager-sablon
Társított szolgáltatás létrehozása a Google Cloud Storage-hoz felhasználói felülettel
Az alábbi lépésekkel társított szolgáltatást hozhat létre a Google Cloud Storage-hoz az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd válassza az Új lehetőséget:
Keressen rá a Google-ra, és válassza ki a Google Cloud Storage (S3 API) összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Az összekötő konfigurációjának részletei
A következő szakaszok a Google Cloud Storage-ra jellemző Data Factory-entitások meghatározásához használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
A Google Cloud Storage társított szolgáltatásai az alábbi tulajdonságokat támogatják:
| Property | Description | Required |
|---|---|---|
| típus | A típustulajdonságotGoogleCloudStorage értékre kell állítani. | Yes |
| accessKeyId | A titkos hozzáférési kulcs azonosítója. A hozzáférési kulcs és a titkos kód megkereséséhez tekintse meg az előfeltételeket. | Yes |
| secretAccessKey | Maga a titkos hozzáférési kulcs. Jelölje meg ezt a mezőt SecureStringként , hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. | Yes |
| serviceUrl | Adja meg az egyéni GCS-végpontot .https://storage.googleapis.com |
Yes |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Íme egy példa:
{
"name": "GoogleCloudStorageLinkedService",
"properties": {
"type": "GoogleCloudStorage",
"typeProperties": {
"accessKeyId": "<access key id>",
"secretAccessKey": {
"type": "SecureString",
"value": "<secret access key>"
},
"serviceUrl": "https://storage.googleapis.com"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Adatkészlet tulajdonságai
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
A location beállításai között a formátum-alapú adatkészletek esetén a következő tulajdonságok támogatottak a Google Cloud Storage esetében:
| Property | Description | Required |
|---|---|---|
| típus |
Az adathalmaz típustulajdonságának locationa GoogleCloudStorageLocation értékre kell állítania. |
Yes |
| bucketName | A GCS-tároló neve. | Yes |
| folderPath | Az adott gyűjtő alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | No |
| fileName | A megadott bucket és mappa útvonal alatti fájlnév. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | No |
Example:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Google Cloud Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "GoogleCloudStorageLocation",
"bucketName": "bucketname",
"folderPath": "folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz a Google Cloud Storage-forrás által támogatott tulajdonságok listáját tartalmazza.
A Google Cloud Storage mint forrástípus
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
A Google Cloud Storage formátumalapú másolási forrás beállításai között storeSettings az alábbi tulajdonságok támogatottak:
| Property | Description | Required |
|---|---|---|
| típus | Az alatta lévő storeSettings típustulajdonságnak a GoogleCloudStorageReadSettings értékre kell állítania. |
Yes |
| Keresse meg a másolandó fájlokat: | ||
| 1. LEHETŐSÉG: statikus elérési út |
Másoljon a megadott adatforrásból vagy a megadott mappa vagy fájl elérési útjáról. Ha az összes fájlt egy vödörből vagy mappából szeretné másolni, adja meg wildcardFileName is *. |
|
| 2. LEHETŐSÉG: GCS-előtag -előképző |
A GCS-kulcs nevének előtagja az adathalmazban konfigurált adott gyűjtőben a forrás GCS-fájlok szűrésére. Azok a GCS-kulcsok, amelyek neve a kezdőbetűkkel bucket_in_dataset/this_prefix kezdődik, ki vannak választva. A GCS szolgáltatásoldali szűrőjét használja, amely jobb teljesítményt nyújt, mint egy helyettesítő karakterszűrő. |
No |
| 3. LEHETŐSÉG: helyettesítő karakter - helyettesítő karakterekFolderPath |
Az adatkészletben konfigurált, az adott gyűjtő alatti mappa elérési útja helyettesítő karakterekkel a forrásmappák szűrésére. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik. További példák a mappa- és fájlszűrő példákban. |
No |
| 3. LEHETŐSÉG: helyettesítő karakter - wildcardFileName |
A megadott gyűjtő- és mappaútvonal (vagy helyettesítő mappa elérési útja) alatt található fájlnév, amely helyettesítő karaktereket tartalmaz, a forrásfájlok szűréséhez. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példák a mappa- és fájlszűrő példákban. |
Yes |
| 3. LEHETŐSÉG: a fájlok listája - fileListPath |
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely az adathalmazban konfigurált elérési út relatív elérési útja. Ha ezt a lehetőséget használja, ne adja meg a fájlnevet az adathalmazban. További példák a Fájllista példákban. |
No |
| További beállítások: | ||
| recursive | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz , és a fogadó fájlalapú tároló, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis. Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
No |
| deleteFilesAfterCompletion | Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak. Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis. |
No |
| modifiedDatetimeStart | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStartNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
No |
| modifiedDatetimeEnd | Lásd fentebb. | No |
| enablePartitionDiscovery | A particionált fájlok esetében adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket. Az engedélyezett értékek hamisak (alapértelmezett) és igazak. |
No |
| partitionRootPath | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. Ha nincs megadva, alapértelmezés szerint – Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út. – Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal. Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja: - Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.– Ha nincs megadva a partíció gyökérútvonala, a rendszer nem hoz létre további oszlopot. |
No |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | No |
Example:
"activities":[
{
"name": "CopyFromGoogleCloudStorage",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "GoogleCloudStorageReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mappa- és fájlszűrő példák
Ez a szakasz a mappa elérési útjának és a fájlnévnek helyettesítő karaktereket tartalmazó viselkedését ismerteti.
| gyűjtő | kulcs | recursive | A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri) |
|---|---|---|---|
| gyűjtő | Folder*/* |
false | gyűjtő FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
| gyűjtő | Folder*/* |
true | gyűjtő FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
| gyűjtő | Folder*/*.csv |
false | gyűjtő FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
| gyűjtő | Folder*/*.csv |
true | gyűjtő FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Példák fájllistára
Ez a szakasz a másolási tevékenység forrásában található fájllista elérési útjának használatát ismerteti.
Tegyük fel, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:
| Minta forrásstruktúra | Tartalom a FileListToCopy.txt | Configuration |
|---|---|---|
| gyűjtő FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv Metadata FileListToCopy.txt |
File1.csv Subfolder1/File3.csv Subfolder1/File5.csv |
Adatkészletben: - Vödör: bucket- Mappa elérési útja: FolderAMásolási tevékenység forrása: - Fájllista elérési útja: bucket/Metadata/FileListToCopy.txt A fájllista elérési útja arra a szövegfájlra mutat, amely ugyanabban az adattárolóban található, és tartalmazza azoknak a fájloknak a listáját, amelyeket másolni szeretnél, egy fájl soronként, az adathalmazban beállított útvonalhoz viszonyított relatív elérési úttal. |
Adatfolyam-tulajdonságok leképezése
A leképezési adatfolyamok adatainak átalakításakor a Google Cloud Storage-ból a következő formátumokban olvashat fájlokat:
A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban.
Forrásátalakítás
A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat a Google Cloud Storage-ban. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.
Helyettesítő karakterek útvonalai: A helyettesítő karakterek használata arra utasítja a szolgáltatást, hogy egyetlen átalakítási folyamat során végigmenjen az egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a meglévő helyettesítő karakterminta fölé rámutatáskor megjelenő pluszjellel.
A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. A helyettesítő karakter elérési útjának ezért tartalmaznia kell a gyökérmappából származó mappa elérési útját is.
Példák helyettesítő karakterekre:
*Bármilyen karakterkészletet jelöl.**Rekurzív könyvtárbe ágyazást jelöl.?Egy karaktert cserél le.[]Egy vagy több karaktert illeszt a szögletes zárójelekben./data/sales/**/*.csvLekéri az összes .csv fájlt a /data/sales területen./data/sales/20??/**/Lekéri az összes fájlt a 20. századból./data/sales/*/*/*.csvMegszerzi a .csv fájlokat két szinttel lejjebb az /data/sales könyvtár alatt./data/sales/2004/*/12/[XY]1?.csv2004 decemberében lekéri az összes .csv fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik.
Partíció gyökérútvonala: Ha a fájlforrásában key=value formátumúak a particionált mappák (például year=2019), akkor a partíciós mappastruktúra legfelső szintjét hozzárendelheti az adatfolyam egyik oszlopnevéhez.
Először állítson be egy helyettesítő karaktert, hogy tartalmazza a particionált mappák összes elérési útját, valamint az elolvasni kívánt levélfájlokat.
A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, láthatja, hogy a szolgáltatás hozzáadja az egyes mappaszinteken található feloldott partíciókat.
Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.
A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét egy oszlopban az adatokban. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.
Befejezés után: Ha nem szeretne semmit tenni a forrásfájllal az adatfolyam futtatása után, törölje a forrásfájlt, vagy helyezze át a forrásfájlt. Az áthelyezés elérési útjai relatívek.
Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.
Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis a következőképpen fog kinézni:
/data/sales/20??/**/*.csv
A következő módon adhatja meg a "from" értéket:
/data/sales
A "to" értéket pedig a következő módon adhatja meg:
/backup/priorSales
Ebben az esetben az összes fájl, amely /data/sales alatt forrásként szerepel, áthelyezésre kerül a /backup/priorSales helyre.
Note
A fájlműveletek csak akkor futnak, ha egy folyamatfuttatásból (folyamat hibakereséséből vagy végrehajtási futtatásából) indítja el az adatfolyamot, amely a folyamat adatfolyam-végrehajtási tevékenységét használja. A fájlműveletek nem futnak adatfolyam-hibakeresési módban.
Szűrés utoljára módosítva: A feldolgozandó fájlok szűréséhez megadhatja a legutóbbi módosítás dátumtartományát. Minden dátumidő UTC-ben van.
Keresési tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.
GetMetadata tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a GetMetadata tevékenységét.
Tevékenységtulajdonságok törlése
A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet.
Régi modellek
Ha Amazon S3-összekötőt használ az adatok Google Cloud Storage-ból való másolásához, az továbbra is támogatott a visszamenőleges kompatibilitáshoz hasonlóan. Javasoljuk, hogy használja a korábban említett új modellt. A szerzői felhasználói felület az új modell létrehozására váltott.
Kapcsolódó tartalom
A másolási tevékenység által forrásként és fogadóként támogatott adattárak listáját a Támogatott adattárak című témakörben találja.