Adatok másolása és átalakítása az Azure Data Lake Storage Gen2-ben az Azure Data Factory vagy az Azure Synapse Analytics használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az Azure Data Lake Storage Gen2 (ADLS Gen2) az Azure Blob Storage-ba beépített big data-elemzésekhez dedikált képességek készlete. You can use it to interface with your data by using both file system and object storage paradigms.

Ez a cikk bemutatja, hogyan másolhat adatokat a Másolási tevékenység használatával az Azure Data Lake Storage Gen2-ből és az Azure Data Lake Storage Gen2-be, és hogyan alakíthat át adatokat a Adatfolyam az Azure Data Lake Storage Gen2-ben. További információért olvassa el az Azure Data Factory vagy az Azure Synapse Analytics bevezető cikkét.

Tipp.

A Data Lake vagy az adattárház migrálási forgatókönyvéhez további információt az Adatok migrálása a data lake-ből vagy az adattárházból az Azure-ba című témakörben olvashat.

Támogatott képességek

Ez az Azure Data Lake Storage Gen2-összekötő a következő képességeket támogatja:

Támogatott képességek IR Managed private endpoint
Copy tevékenység (forrás/fogadó) ① ②
Adatfolyam leképezése (forrás/fogadó)
Keresési tevékenység ① ②
GetMetadata-tevékenység ① ②
Tevékenység törlése ① ②

(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul

A Copy tevékenység esetében az összekötővel a következőt teheti:

  • Adatok másolása az Azure Data Lake Storage Gen2-ből vagy az Azure Data Lake Storage Gen2-be fiókkulcs, szolgáltatásnév vagy felügyelt identitások használatával az Azure-erőforrások hitelesítéséhez.
  • Fájlokat másolhat, elemezhet vagy hozhat létre támogatott fájlformátumokkal és tömörítési kodekekkel.
  • A fájl metaadatainak megőrzése másolás közben.
  • Az ACL-ek megőrzése az Azure Data Lake Storage Gen1/Gen2-ből való másoláskor.

Első lépések

Tipp.

A Data Lake Storage Gen2-összekötő használatáról további információt az Adatok betöltése az Azure Data Lake Storage Gen2-be című témakörben talál.

A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:

Azure Data Lake Storage Gen2 társított szolgáltatás létrehozása felhasználói felületen

Az alábbi lépésekkel létrehozhat egy Azure Data Lake Storage Gen2 társított szolgáltatást az Azure Portal felhasználói felületén.

  1. Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:

  2. Keresse meg az Azure Data Lake Storage Gen2-t, és válassza ki az Azure Data Lake Storage Gen2-összekötőt.

    Select Azure Data Lake Storage Gen2 connector.

  3. Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.

    Screenshot of configuration for Azure Data Lake Storage Gen2 linked service.

Csatlakozás or konfigurációjának részletei

A következő szakaszok a Data Factory és a Synapse-folyamat entitásainak a Data Lake Storage Gen2-hez tartozó definiálásához használt tulajdonságokról nyújtanak információkat.

Társított szolgáltatás tulajdonságai

Az Azure Data Lake Storage Gen2-összekötő a következő hitelesítési típusokat támogatja. Részletekért tekintse meg a megfelelő szakaszokat:

Megjegyzés:

  • Ha a nyilvános Azure-integrációs futtatókörnyezetet szeretné használni a Data Lake Storage Gen2-hez való csatlakozáshoz a Megbízható Microsoft-szolgáltatások engedélyezése az Azure Storage tűzfalon engedélyezett tárfiók-beállítás eléréséhez, felügyelt identitáshitelesítést kell használnia. További információ az Azure Storage-tűzfalak beállításairól: Azure Storage-tűzfalak és virtuális hálózatok konfigurálása.
  • Ha PolyBase vagy COPY utasítás használatával tölt be adatokat az Azure Synapse Analyticsbe, ha a Forrás vagy átmeneti Data Lake Storage Gen2 azure-beli virtuális hálózati végponttal van konfigurálva, az Azure Synapse által megkövetelt felügyelt identitáshitelesítést kell használnia. További konfigurációs előfeltételekkel lásd a felügyelt identitáshitelesítési szakaszt.

Fiókkulcs-hitelesítés

A tárfiókkulcs-hitelesítés használatához a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonságnak AzureBlobFS-nek kell lennie. Igen
url A Data Lake Storage Gen2 végpontja https://<accountname>.dfs.core.windows.neta következő mintával: . Igen
accountKey A Data Lake Storage Gen2 fiókkulcsa. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. Igen
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy egy saját üzemeltetésű integrációs modult, ha az adattár magánhálózaton található. Ha ez a tulajdonság nincs megadva, a rendszer az alapértelmezett Azure-integrációs modult használja. Nem

Megjegyzés:

A másodlagos ADLS fájlrendszervégpont nem támogatott a fiókkulcs-hitelesítés használatakor. Más hitelesítési típusokat is használhat.

Példa

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "accountkey": { 
                "type": "SecureString", 
                "value": "<accountkey>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Közös hozzáférésű jogosultságkód hitelesítése

A megosztott hozzáférésű jogosultságkód delegált hozzáférést biztosít a tárfiók erőforrásaihoz. A megosztott hozzáférésű jogosultságkódokkal korlátozott engedélyeket adhat egy ügyfélnek a tárfiókban lévő objektumokhoz egy adott időre.

Nem kell megosztania a fiók hozzáférési kulcsait. A közös hozzáférésű jogosultságkód egy URI, amely a lekérdezési paraméterekben tartalmazza a tárerőforráshoz való hitelesített hozzáféréshez szükséges összes információt. A megosztott hozzáférésű jogosultságkóddal rendelkező tárolási erőforrások eléréséhez az ügyfélnek csak a közös hozzáférésű jogosultságkódot kell átadnia a megfelelő konstruktornak vagy metódusnak.

A közös hozzáférésű jogosultságkódokkal kapcsolatos további információkért lásd : Közös hozzáférésű jogosultságkódok: A közös hozzáférésű jogosultságkód-modell ismertetése.

Megjegyzés:

A következő tulajdonságok támogatottak a közös hozzáférésű jogosultságkód-hitelesítés használatához:

Property Leírás Required
típus A type tulajdonságot (javasolt) értékre AzureBlobFS kell állítani Igen
sasUri Adja meg a megosztott hozzáférésű jogosultságkód URI-jának használatát a Storage-erőforrásokhoz, például a blobhoz vagy a tárolóhoz.
Jelölje meg ezt a mezőt, hogy SecureString biztonságosan tárolja. Az SAS-jogkivonatot az Azure Key Vaultban is elhelyezheti az automatikus elforgatás és a tokenrész eltávolításához. További információ: az alábbi minták és a hitelesítő adatok tárolása az Azure Key Vaultban.
Igen
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. Nem

Megjegyzés:

Ha a AzureStorage társított típusú szolgáltatást használja, az továbbra is támogatott. Javasoljuk azonban, hogy az új AzureDataLakeStorageGen2 társított szolgáltatástípust használja tovább.

Példa

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: a fiókkulcs tárolása az Azure Key Vaultban

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "sasUri": {
                "type": "SecureString",
                "value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
            },
            "sasToken": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Amikor közös hozzáférésű jogosultságkód URI-t hoz létre, vegye figyelembe a következő szempontokat:

  • Állítsa be a megfelelő olvasási/írási engedélyeket az objektumokon a társított szolgáltatás (olvasás, írás, olvasás/írás) használata alapján.
  • A lejárati idő megfelelő beállítása. Győződjön meg arról, hogy a Storage-objektumokhoz való hozzáférés nem jár le a folyamat aktív időszakában.
  • Az URI-t szükség szerint a megfelelő tárolóban vagy blobban kell létrehozni. A blobok közös hozzáférésű jogosultságkódjának URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat hozzáférjen az adott blobhoz. A Blob Storage-tárolók közös hozzáférésű jogosultságkódjának URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat iteráljon a tárolóban lévő blobokon keresztül. Ha később több vagy kevesebb objektumhoz szeretne hozzáférést biztosítani, vagy frissíteni szeretné a közös hozzáférésű jogosultságkód URI-ját, ne felejtse el frissíteni a társított szolgáltatást az új URI-val.

Egyszerű szolgáltatás hitelesítése

A szolgáltatásnév-hitelesítés használatához kövesse az alábbi lépéseket.

  1. Alkalmazás regisztrálása a Microsoft Identitásplatform. Ennek módjáról a rövid útmutatóban olvashat: Alkalmazás regisztrálása a Microsoft Identitásplatform. Jegyezze fel ezeket az értékeket, amelyeket a társított szolgáltatás definiálásához használ:

    • Pályázat azonosítója
    • Alkalmazáskulcs
    • Tenant ID
  2. Adjon megfelelő engedélyt a szolgáltatásnévnek. Példák a Data Lake Storage Gen2 engedélyeinek működésére a fájlok és könyvtárak hozzáférés-vezérlési listáiból

    • Forrásként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Olvasás engedélyt a másolandó fájloknak. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok olvasója szerepkört.
    • Fogadóként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Írás engedélyt a fogadó mappának. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok közreműködője szerepkört.

Megjegyzés:

Ha felhasználói felületet használ a létrehozáshoz, és a szolgáltatásnév nincs beállítva a "Storage Blob Data Reader/Contributor" szerepkörrel az IAM-ben, a tesztkapcsolat vagy a mappák böngészése/navigálása során válassza a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget, és adjon meg egy elérési utat olvasási + végrehajtási engedéllyel a folytatáshoz.

Ezek a tulajdonságok támogatottak a társított szolgáltatásban:

Property Leírás Required
típus A típustulajdonságnak AzureBlobFS-nek kell lennie. Igen
url A Data Lake Storage Gen2 végpontja https://<accountname>.dfs.core.windows.neta következő mintával: . Igen
servicePrincipalId Adja meg az alkalmazás ügyfél-azonosítóját. Igen
servicePrincipalCredentialType A szolgáltatásnév-hitelesítéshez használandó hitelesítőadat-típus. Az engedélyezett értékek a ServicePrincipalKey és a ServicePrincipalCert. Igen
servicePrincipalCredential A szolgáltatásnév hitelesítő adatai.
Ha a ServicePrincipalKey-t használja hitelesítő adattípusként, adja meg az alkalmazás kulcsát. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra.
Ha a ServicePrincipalCertet használja hitelesítő adatként, hivatkozzon egy tanúsítványra az Azure Key Vaultban, és győződjön meg arról, hogy a tanúsítvány tartalomtípusa PKCS #12.
Igen
servicePrincipalKey Adja meg az alkalmazás kulcsát. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra.
Ez a tulajdonság továbbra is támogatott a következőhöz servicePrincipalId + servicePrincipalKeyhasonlóan: . Mivel az ADF új egyszerű szolgáltatástanúsítvány-hitelesítést ad hozzá, a szolgáltatásnév-hitelesítés új modellje az servicePrincipalIdservicePrincipalCredential + servicePrincipalCredentialType + .
Nem
bérlő Adja meg azt a bérlői információt (tartománynevet vagy bérlőazonosítót), amely alatt az alkalmazás található. Kérje le az egérmutatót az Azure Portal jobb felső sarkában. Igen
azureCloudType A szolgáltatásnév hitelesítéséhez adja meg annak az Azure-felhőkörnyezetnek a típusát, amelyre a Microsoft Entra-alkalmazás regisztrálva van.
Az engedélyezett értékek az AzurePublic, az AzureChina, az AzureUsGovernment és az AzureGermany. Alapértelmezés szerint a rendszer az adat-előállítót vagy a Synapse-folyamat felhőkörnyezetét használja.
Nem
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy egy saját üzemeltetésű integrációs modult, ha az adattár magánhálózaton található. Ha nincs megadva, a rendszer az alapértelmezett Azure-integrációs modult használja. Nem

Példa: egyszerű szolgáltatáskulcs-hitelesítés használata

A szolgáltatásnévkulcsot az Azure Key Vaultban is tárolhatja.

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalKey",
            "servicePrincipalCredential": {
                "type": "SecureString",
                "value": "<service principal key>"
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: egyszerű szolgáltatástanúsítvány-hitelesítés használata

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalCredentialType": "ServicePrincipalCert",
            "servicePrincipalCredential": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<AKV reference>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<certificate name in AKV>" 
            },
            "tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>" 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Rendszer által hozzárendelt felügyelt identitás hitelesítése

Egy adat-előállító vagy Synapse-munkaterület társítható egy rendszer által hozzárendelt felügyelt identitással. Ezt a rendszer által hozzárendelt felügyelt identitást közvetlenül használhatja a Data Lake Storage Gen2-hitelesítéshez, hasonlóan a saját szolgáltatásnév használatához. Ez lehetővé teszi, hogy ez a kijelölt gyár vagy munkaterület hozzáférhessen és átmásolhassa az adatokat a Data Lake Storage Gen2-be vagy onnan.

A rendszer által hozzárendelt felügyelt identitáshitelesítés használatához kövesse az alábbi lépéseket.

  1. Kérje le a rendszer által hozzárendelt felügyelt identitásadatokat az adat-előállítóval vagy a Synapse-munkaterülettel együtt létrehozott felügyelt identitásobjektum-azonosító értékének másolásával.

  2. Adjon megfelelő engedélyt a rendszer által hozzárendelt felügyelt identitásnak. Példák a Data Lake Storage Gen2 engedélyeinek működésére a fájlok és könyvtárak hozzáférés-vezérlési listáiból.

    • Forrásként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Olvasás engedélyt a másolandó fájloknak. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok olvasója szerepkört.
    • Fogadóként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Írás engedélyt a fogadó mappának. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok közreműködője szerepkört.

Ezek a tulajdonságok támogatottak a társított szolgáltatásban:

Property Leírás Required
típus A típustulajdonságnak AzureBlobFS-nek kell lennie. Igen
url A Data Lake Storage Gen2 végpontja https://<accountname>.dfs.core.windows.neta következő mintával: . Igen
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy egy saját üzemeltetésű integrációs modult, ha az adattár magánhálózaton található. Ha nincs megadva, a rendszer az alapértelmezett Azure-integrációs modult használja. Nem

Példa

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Felhasználó által hozzárendelt felügyelt identitás hitelesítése

Egy adat-előállító egy vagy több felhasználó által hozzárendelt felügyelt identitással rendelhető hozzá. Ezt a felhasználó által hozzárendelt felügyelt identitást használhatja a Blob Storage-hitelesítéshez, amely lehetővé teszi az adatok elérését és másolását a Data Lake Storage Gen2-ből vagy onnan. Az Azure-erőforrások felügyelt identitásairól további információt az Azure-erőforrások felügyelt identitásai című témakörben talál .

A felhasználó által hozzárendelt felügyelt identitáshitelesítés használatához kövesse az alábbi lépéseket:

  1. Hozzon létre egy vagy több felhasználó által hozzárendelt felügyelt identitást , és adjon hozzáférést az Azure Data Lake Storage Gen2-hez. Példák a Data Lake Storage Gen2 engedélyeinek működésére a fájlok és könyvtárak hozzáférés-vezérlési listáiból.

    • Forrásként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Olvasás engedélyt a másolandó fájloknak. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok olvasója szerepkört.
    • Fogadóként: A Storage Explorerben adjon legalább Végrehajtás engedélyt az ÖSSZES felsőbb rétegbeli mappának és a fájlrendszernek, valamint Írás engedélyt a fogadó mappának. Másik lehetőségként a Hozzáférés-vezérlésben (IAM) adja meg legalább a Storage-blobadatok közreműködője szerepkört.
  2. Rendeljen hozzá egy vagy több felhasználó által hozzárendelt felügyelt identitást az adat-előállítóhoz, és hozzon létre hitelesítő adatokat minden felhasználó által hozzárendelt felügyelt identitáshoz.

Ezek a tulajdonságok támogatottak a társított szolgáltatásban:

Property Leírás Required
típus A típustulajdonságnak AzureBlobFS-nek kell lennie. Igen
url A Data Lake Storage Gen2 végpontja https://<accountname>.dfs.core.windows.neta következő mintával: . Igen
hitelesítő adatok Adja meg a felhasználó által hozzárendelt felügyelt identitást hitelesítő objektumként. Igen
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . Használhatja az Azure integrációs modult vagy egy saját üzemeltetésű integrációs modult, ha az adattár magánhálózaton található. Ha nincs megadva, a rendszer az alapértelmezett Azure-integrációs modult használja. Nem

Példa

{
    "name": "AzureDataLakeStorageGen2LinkedService",
    "properties": {
        "type": "AzureBlobFS",
        "typeProperties": {
            "url": "https://<accountname>.dfs.core.windows.net", 
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
                }
            },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Megjegyzés:

Ha a Data Factory felhasználói felületét használja a létrehozáshoz, és a felügyelt identitás nincs beállítva a "Storage Blob Adatolvasó/Közreműködő" szerepkörrel az IAM-ben, a tesztkapcsolat vagy a mappák böngészése/navigálása során válassza a "Kapcsolat tesztelése a fájl elérési útján" vagy a "Tallózás a megadott elérési útból" lehetőséget, és adjon meg egy elérési utat Olvasás + Végrehajtás engedéllyel a folytatáshoz.

Fontos

Ha PolyBase vagy COPY utasítással tölt be adatokat a Data Lake Storage Gen2-ből az Azure Synapse Analyticsbe, a Data Lake Storage Gen2 felügyelt identitáshitelesítésének használatakor győződjön meg arról, hogy az útmutató 1–3. lépését is követi. Ezek a lépések regisztrálják a kiszolgálót a Microsoft Entra-azonosítóval, és hozzárendelik a storage blobadatok közreműködői szerepkörét a kiszolgálóhoz. A Data Factory kezeli a többit. Ha a Blob Storage-t azure-beli virtuális hálózati végponttal konfigurálja, akkor azt is engedélyeznie kell, hogy a megbízható Microsoft-szolgáltatások hozzáférjenek ehhez a tárfiókhoz az Azure Storage-fiók tűzfalai és a virtuális hálózatok beállításai menüben, az Azure Synapse által megkövetelt módon.

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című témakörben találja.

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

A Data Lake Storage Gen2 formátumalapú adathalmaz beállításai között location a következő tulajdonságok támogatottak:

Property Leírás Required
típus Az adathalmazban lévő location típustulajdonságot AzureBlobFSLocation értékre kell állítani. Igen
Fájlrendszer A Data Lake Storage Gen2 fájlrendszer neve. Nem
folderPath Az adott fájlrendszer alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappákat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. Nem
fileName A megadott fileSystem + folderPath fájlnév. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. Nem

Példa

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobFSLocation",
                "fileSystem": "filesystemname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listájáért tekintse meg Copy tevékenység konfigurációkat, valamint a folyamatokat és tevékenységeket. Ez a szakasz a Data Lake Storage Gen2-forrás és fogadó által támogatott tulajdonságok listáját tartalmazza.

Az Azure Data Lake Storage Gen2 mint forrástípus

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

Az adatok az ADLS Gen2-ből való másolására számos lehetőség közül választhat:

  • Másolja ki az adathalmazban megadott elérési útból.
  • Helyettesítő karakterek szűrője a mappa elérési útjára vagy a fájlnévre, lásd wildcardFolderPath és wildcardFileName.
  • Másolja az adott szövegfájlban definiált fájlokat fájlkészletként, lásd: fileListPath.

A Data Lake Storage Gen2 formátumalapú másolási forrás beállításai között storeSettings a következő tulajdonságok támogatottak:

Property Leírás Required
típus Az alatta lévő storeSettings típustulajdonságnak AzureBlobFSRead Gépház kell lennie. Igen
Keresse meg a másolandó fájlokat:
1. LEHETŐSÉG: statikus elérési út
Másolja ki az adathalmazban megadott fájlrendszerből vagy mappából/fájl elérési útból. Ha az összes fájlt egy fájlrendszerből/mappából szeretné másolni, adja meg wildcardFileName a következőt *is: .
2. LEHETŐSÉG: helyettesítő karakter
- helyettesítő karakterekFolderPath
A mappa elérési útja helyettesítő karakterekkel az adott fájlrendszer alatt, a forrásmappák szűrésére konfigurálva az adatkészletben.
Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg); akkor használható ^ a feloldáshoz, ha a mappa tényleges neve helyettesítő karaktert tartalmaz, vagy ez a feloldó karakter található benne.
További példák a mappa- és fájlszűrő példákban.
Nem
2. LEHETŐSÉG: helyettesítő karakter
- wildcardFileName
A fájl neve helyettesítő karakterekkel a megadott fájlrendszer alatt + folderPath/wildcardFolderPath a forrásfájlok szűréséhez.
Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg); akkor használható ^ a feloldásra, ha a tényleges fájlnév helyettesítő karaktert tartalmaz, vagy ez a feloldó karakter található benne. További példák a mappa- és fájlszűrő példákban.
Igen
3. LEHETŐSÉG: a fájlok listája
- fileListPath
Egy adott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolandó fájlok listáját, soronként egy fájlt, amely az adathalmazban konfigurált elérési út relatív elérési útja.
Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példák a Fájllista példákban.
Nem
További beállítások:
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz, és a fogadó fájlalapú tároló, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
deleteFilesAfterCompletion Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak.
Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis.
Nem
modifiedDatetimeStart A fájlok szűrése a következő attribútum alapján történik: Utolsó módosítás.
A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva.
A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd NULL, az azt jelenti, hogy a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL, az azt jelenti, hogy azok a fájlok lesznek kiválasztva, amelyeknek az utolsó módosított attribútuma kisebb, mint a datetime érték.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
modifiedDatetimeEnd Lásd fentebb. Nem
enablePartitionDiscovery Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket.
Az engedélyezett értékek hamisak (alapértelmezett) és igazak.
Nem
partitionRootPath Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.

Ha nincs megadva, alapértelmezés szerint
– Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út.
– Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.

Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja:
- Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.
– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AzureBlobFSReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Azure Data Lake Storage Gen2 fogadótípusként

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

A Data Lake Storage Gen2 formátumalapú másolási fogadó beállításai között storeSettings a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonságnak az storeSettings AzureBlobFSWrite Gépház kell lennie. Igen
copyBehavior Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok.

Az engedélyezett értékek a következők:
- PreserveHierarchy (alapértelmezett): Megőrzi a fájlhierarchiát a célmappában. A forrásfájlnak a forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útával.
- FlattenHierarchy: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
- MergeFiles: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
Nem
blockSizeInMB Adja meg az adatok ADLS Gen2-be való írásához használt MB blokkméretet. További információ a blokkblobokról.
Az engedélyezett érték 4 MB és 100 MB között van.
Alapértelmezés szerint az ADF automatikusan meghatározza a blokk méretét a forrástár típusa és adatai alapján. Az ADLS Gen2-be történő nem bináris másolás esetén az alapértelmezett blokkméret 100 MB, hogy legfeljebb 4,75 TB-os adatokhoz férjen el. Előfordulhat, hogy nem optimális, ha az adatok nem nagyok, különösen akkor, ha önkiszolgáló integrációs futtatókörnyezetet használ gyenge hálózattal, ami működési időtúllépést vagy teljesítményproblémát eredményez. Explicit módon megadhatja a blokkméretet, ugyanakkor győződjön meg arról, hogy a blockSizeInMB*50000 elég nagy az adatok tárolásához, ellenkező esetben a másolási tevékenység futtatása sikertelen lesz.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem
metaadatok Egyéni metaadatok beállítása fogadóba másoláskor. A tömb alatti metadata objektumok egy további oszlopot jelölnek. Ez name határozza meg a metaadatkulcs nevét, és a value kulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait.

Az engedélyezett adatértékek a következők:
- $$LASTMODIFIED: a fenntartott változó azt jelzi, hogy a forrásfájlok utolsó módosítási ideje tárolható. Csak bináris formátumú fájlalapú forrásra alkalmazható.
-Kifejezés
- Statikus érték
Nem

Példa

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Parquet output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "ParquetSink",
                "storeSettings":{
                    "type": "AzureBlobFSWriteSettings",
                    "copyBehavior": "PreserveHierarchy",
                    "metadata": [
                        {
                            "name": "testKey1",
                            "value": "value1"
                        },
                        {
                            "name": "testKey2",
                            "value": "value2"
                        },
                        {
                            "name": "lastModifiedKey",
                            "value": "$$LASTMODIFIED"
                        }
                    ]
                }
            }
        }
    }
]

Mappa- és fájlszűrő példák

Ez a szakasz a mappa elérési útjának és a fájlnévnek helyettesítő karaktereket tartalmazó viselkedését ismerteti.

folderPath fileName Rekurzív A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri)
Folder* (Üres, alapértelmezett beállítás) false FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* (Üres, alapértelmezett beállítás) true FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* *.csv false FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* *.csv true FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv

Példák fájllistára

Ez a szakasz a fájllista elérési útjának másolási tevékenység forrásában való használatát ismerteti.

Feltéve, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:

Minta forrásstruktúra Tartalom a FileListToCopy.txt fájlban ADF-konfiguráció
fájlrendszer
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    Metaadatok
        FileListToCopy.txt
File1.csv
Almappák1/File3.csv
Almappák1/File5.csv
Adatkészletben:
- Fájlrendszer: filesystem
- Mappa elérési útja: FolderA

Másolási tevékenység forrása:
- Fájllista elérési útja: filesystem/Metadata/FileListToCopy.txt

A fájllista elérési útja egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját, soronként egy fájlt az adathalmazban konfigurált elérési út relatív elérési útjával.

Néhány rekurzív és copyBehavior példa

Ez a szakasz a másolási művelet eredményül kapott viselkedését ismerteti a rekurzív és a copyBehavior értékek különböző kombinációihoz.

Rekurzív copyBehavior Forrásmappa-struktúra Eredményként kapott cél
true preserveHierarchy Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 ugyanazzal a struktúrával jön létre, mint a forrás:

Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
true flattenHierarchy Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 a következő struktúrával jön létre:

Mappa1
    a Fájl1 automatikusan létrehozott neve
    a Fájl2 automatikusan létrehozott neve
    a Fájl3 automatikusan létrehozott neve
    a Fájl4 automatikusan létrehozott neve
    a Fájl5 automatikusan létrehozott neve
true mergeFiles Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 a következő struktúrával jön létre:

Mappa1
    File1 + File2 + File3 + File4 + File5 tartalom egyesítése egy fájlba egy automatikusan létrehozott fájlnévvel.
false preserveHierarchy Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 a következő struktúrával jön létre:

Mappa1
    Fájl1
    Fájl2

A Fájl3, a File4 és a File5 almappája nem lesz felvéve.
false flattenHierarchy Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 a következő struktúrával jön létre:

Mappa1
    a Fájl1 automatikusan létrehozott neve
    a Fájl2 automatikusan létrehozott neve

A Fájl3, a File4 és a File5 almappája nem lesz felvéve.
false mergeFiles Mappa1
    Fájl1
    Fájl2
    Almappák1
        Fájl3
        Fájl4
        Fájl5
A célmappa1 a következő struktúrával jön létre:

Mappa1
    Az 1. és a 2. fájl tartalma egy automatikusan létrehozott fájlnévvel rendelkező fájlba egyesül. a Fájl1 automatikusan létrehozott neve

A Fájl3, a File4 és a File5 almappája nem lesz felvéve.

Metaadatok megőrzése másolás közben

Amikor fájlokat másol az Amazon S3/Azure Blob/Azure Data Lake Storage Gen2-ből az Azure Data Lake Storage Gen2/Azure Blob szolgáltatásba, dönthet úgy, hogy az adatokkal együtt megőrzi a fájl metaadatait. További információ a metaadatok megőrzéséről.

ACL-ek megőrzése a Data Lake Storage Gen1/Gen2-ből

Amikor fájlokat másol az Azure Data Lake Storage Gen1/Gen2-ből Gen2-be, a POSIX-hozzáférés-vezérlési listákat (ACL-eket) az adatokkal együtt megőrizheti. További információ: ACL-ek megőrzése a Data Lake Storage Gen1/Gen2-ből Gen2-be.

Tipp.

Az Azure Data Lake Storage Gen1-ből általában a Gen2-be történő adatmásoláshoz tekintse meg az Adatok másolása az Azure Data Lake Storage Gen1-ből Gen2-be című témakört, amely bemutatja az ajánlott eljárásokat.

Adatfolyam-tulajdonságok leképezése

A leképezési adatfolyamok adatainak átalakításakor a következő formátumokban olvashat és írhat fájlokat az Azure Data Lake Storage Gen2-ből:

A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban és fogadóátalakítás a leképezési adatfolyamban.

Forrásátalakítás

A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat az Azure Data Lake Storage Gen2-ben. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.

Screenshot of source options tab in mapping data flow source transformation.

Helyettesítő karakter elérési útja: Helyettesítő karakterminta használatával az ADF arra utasítja az ADF-et, hogy egyetlen forrásátalakítás során végighaladjon az egyes egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a meglévő helyettesítő karakterminta fölé való rámutatáskor megjelenő + jellel.

A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. A helyettesítő karakter elérési útjának ezért tartalmaznia kell a gyökérmappából származó mappa elérési útját is.

Példák helyettesítő karakterekre:

  • * Tetszőleges karakterkészletet jelöl

  • ** Rekurzív címtárbe ágyazást jelöl

  • ? Egy karakter cseréje

  • [] A szögletes zárójelek egyikének felel meg

  • /data/sales/**/*.csv Lekéri az összes csv-fájlt az /data/sales területen

  • /data/sales/20??/**/ Lekéri az összes fájlt a 20. században

  • /data/sales/*/*/*.csv A csv-fájlok két szintjét kapja meg az /data/sales alatt

  • /data/sales/2004/*/12/[XY]1?.csv 2004 decemberében lekéri az összes csv-fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik

Partíció gyökérútvonala: Ha a fájlforrásban key=value particionált mappák vannak formázva (például year=2019), akkor a partíciómappa legfelső szintjét hozzárendelheti egy oszlopnévhez az adatfolyamban.

Először állítson be egy helyettesítő karaktert, hogy tartalmazza a particionált mappák összes elérési útját, valamint az elolvasni kívánt levélfájlokat.

Screenshot of partition source file settings in mapping data flow source transformation.

A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, látni fogja, hogy az ADF hozzáadja az egyes mappaszinteken található feloldott partíciókat.

Partition root path

Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.

A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét az adatok egyik oszlopában. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.

Befejezés után: Válassza ki, hogy az adatfolyam futtatása után nem szeretne semmit tenni a forrásfájllal, törli a forrásfájlt, vagy áthelyezi a forrásfájlt. Az áthelyezés elérési útjai relatívek.

Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.

Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis az alábbihoz hasonlóan fog kinézni:

/data/sales/20??/**/*.csv

Megadhatja, hogy a "feladó"

/data/sales

És a "to" mint

/backup/priorSales

Ebben az esetben a /data/sales alatt forrásul kapott összes fájl a /backup/priorSales mappába kerül.

Megjegyzés:

A fájlműveletek csak akkor futnak, ha egy folyamatfuttatásból (folyamat hibakereséséből vagy végrehajtási futtatásából) indítja el az adatfolyamot, amely a folyamat végrehajtási Adatfolyam tevékenységét használja. A fájlműveletek nem Adatfolyam hibakeresési módban futnak.

Szűrés utoljára módosítva: A legutóbb módosított fájlok dátumtartományának megadásával szűrheti a feldolgozott fájlokat. Minden dátumidő UTC-ben van megadva.

Adatrögzítés engedélyezése: Ha igaz, csak az utolsó futtatáskor kap új vagy módosított fájlokat. A teljes pillanatkép-adatok kezdeti betöltése mindig az első futtatáskor lesz, majd csak a következő futtatások során rögzíti az új vagy módosított fájlokat. További részletekért lásd: Adatrögzítés módosítása.

Screenshot showing Enable change data capture.

Fogadó tulajdonságai

A fogadó átalakításával írhat egy tárolóba vagy mappába az Azure Data Lake Storage Gen2-ben. A Gépház lapon kezelheti a fájlok írási módját.

sink options

A mappa törlése: Meghatározza, hogy a célmappa törlődjön-e az adatok megírása előtt.

Fájlnév beállítás: Meghatározza, hogy a célfájlok hogyan legyenek elnevezve a célmappában. A fájlnév beállításai a következők:

  • Alapértelmezett: Engedélyezze a Sparknak, hogy a PART alapértelmezett érték alapján nevezze el a fájlokat.
  • Minta: Adjon meg egy mintát, amely partíciónként számba adja a kimeneti fájlokat. A hitelek[n].csv például létrehoznak kölcsönök1.csv, loans2.csv stb.
  • Partíciónként: Partíciónként egy fájlnevet adjon meg.
  • Adatként az oszlopban: Állítsa a kimeneti fájlt egy oszlop értékére. Az elérési út az adathalmaz-tárolóhoz viszonyítva van, nem a célmappához. Ha van egy mappa elérési útja az adathalmazban, az felül lesz bírálva.
  • Kimenet egyetlen fájlba: Egyesítse a particionált kimeneti fájlokat egyetlen elnevezett fájlba. Az elérési út az adathalmaz mappához képest van. Vegye figyelembe, hogy az egyesítési művelet a csomópont méretétől függően meghiúsulhat. Ez a beállítás nagy adathalmazokhoz nem ajánlott.

Az összes idézőjel: Meghatározza, hogy az összes értéket idézőjelekbe foglalja-e

umask

Ha szeretné, beállíthatja a fájlokat a umask POSIX olvasási, írási és végrehajtási jelzőinek használatával a tulajdonos, a felhasználó és a csoport számára.

Előfeldolgozási és utófeldolgozási parancsok

A Hadoop fájlrendszerparancsokat igény szerint az ADLS Gen2 fogadóba való írás előtt vagy után is végrehajthatja. A következő parancsok támogatottak:

  • cp
  • mv
  • rm
  • mkdir

Examples:

  • mkdir /folder1
  • mkdir -p folder1
  • mv /folder1/*.* /folder2/
  • cp /folder1/file1.txt /folder2
  • rm -r /folder1

A paramétereket a kifejezésszerkesztő is támogatja, például:

mkdir -p {$tempPath}/commands/c1/c2 mv {$tempPath}/commands/*.* {$tempPath}/commands/c1/c2

Alapértelmezés szerint a mappák felhasználóként/gyökérként jönnek létre. Tekintse meg a legfelső szintű tárolót a következővel: "/".

Keresési tevékenység tulajdonságai

A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.

GetMetadata tevékenység tulajdonságai

A tulajdonságok részleteinek megismeréséhez ellenőrizze a GetMetadata-tevékenységet

Tevékenységtulajdonságok törlése

A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet

Örökölt modellek

Megjegyzés:

Az alábbi modellek továbbra is támogatottak a visszamenőleges kompatibilitás érdekében. Javasoljuk, hogy a fenti szakaszokban említett új modellt használja, és az ADF szerzői felhasználói felülete átváltott az új modell létrehozására.

Örökölt adathalmaz-modell

Property Leírás Required
típus Az adathalmaz típustulajdonságának AzureBlobFSFile értékre kell állítania. Igen
folderPath A Data Lake Storage Gen2 mappájának elérési útja. Ha nincs megadva, a gyökérre mutat.

A helyettesítő karakterek szűrője támogatott. Az engedélyezett helyettesítő karakterek * (nulla vagy több karakter) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa tényleges neve helyettesítő karakterrel rendelkezik, vagy a feloldó karakter benne van.

Példák: fájlrendszer/mappa/. További példák a mappa- és fájlszűrő példákban.
Nem
fileName A megadott "folderPath" alatti fájlok neve vagy helyettesítő karaktere. Ha nem ad meg értéket ehhez a tulajdonsághoz, az adathalmaz a mappában lévő összes fájlra mutat.

Szűrő esetén az engedélyezett * helyettesítő karakterek (nulla vagy több karakter) és ? (nulla vagy egyetlen karakternek felel meg).
- 1. példa: "fileName": "*.csv"
- 2. példa: "fileName": "???20180427.txt"
A feloldás akkor használható ^ , ha a tényleges fájlnév helyettesítő karakterrel rendelkezik, vagy a feloldó karakter benne van.

Ha a fileName nincs megadva kimeneti adatkészlethez, és a preserveHierarchy nincs megadva a tevékenység fogadójában, a másolási tevékenység automatikusan létrehozza a fájlnevet a következő mintával: "Data.[ tevékenységfuttatás azonosítója GUID]. [GUID ha FlattenHierarchy]. [formátum, ha konfigurálva van]. [tömörítés, ha konfigurálva van]", például: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". Ha táblázatos forrásból másol egy táblanevet lekérdezés helyett, a névminta a következő: "[táblanév].[ formátum]. [tömörítés, ha konfigurálva van]", például "MyTable.csv".
Nem
modifiedDatetimeStart A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva.

Az adatáthelyezés általános teljesítményét befolyásolja, hogy engedélyezi ezt a beállítást, ha nagy mennyiségű fájlt tartalmazó fájlszűrőt szeretne végezni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart van dátum/idő értéke, de modifiedDatetimeEnd NULL értékű, az azt jelenti, hogy a rendszer azokat a fájlokat jelöli ki, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy az utolsó módosított attribútummal rendelkező fájlok kisebbek a datetime értéknél.
Nem
modifiedDatetimeEnd A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva.

Az adatáthelyezés általános teljesítményét befolyásolja, hogy engedélyezi ezt a beállítást, ha nagy mennyiségű fájlt tartalmazó fájlszűrőt szeretne végezni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart van dátum/idő értéke, de modifiedDatetimeEnd NULL értékű, az azt jelenti, hogy a rendszer azokat a fájlokat jelöli ki, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy az utolsó módosított attribútummal rendelkező fájlok kisebbek a datetime értéknél.
Nem
format Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban.

Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat és ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, ORC formátum és Parquet formátumszakaszok.
Nem (csak bináris másolási forgatókönyv esetén)
tömörítés Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek.
A támogatott típusok a következők **GZip**, **Deflate**, **BZip2**, and **ZipDeflate**: .
A támogatott szintek optimálisak és leggyorsabbak.
Nem

Tipp.

Ha az összes fájlt át szeretné másolni egy mappában, csak a folderPath értéket adja meg.
Ha egy adott nevű fájlt szeretne másolni, adja meg a folderPath mappát egy mapparészlel és egy fájlnévvel rendelkező fileName értéket.
Ha egy mappa alá szeretné másolni a fájlok egy részhalmazát, adja meg a folderPath mappát egy mapparészlel, a fileName tulajdonságot pedig helyettesítő karakter szűrővel.

Példa

{
    "name": "ADLSGen2Dataset",
    "properties": {
        "type": "AzureBlobFSFile",
        "linkedServiceName": {
            "referenceName": "<Azure Data Lake Storage Gen2 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "myfilesystem/myfolder",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Régi másolási tevékenység forrásmodellje

Property Leírás Required
típus A másolási tevékenység forrásának típustulajdonságát az AzureBlobFSSource értékre kell állítani. Igen
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha a rekurzív érték igaz, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa

"activities":[
    {
        "name": "CopyFromADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<ADLS Gen2 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AzureBlobFSSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Régi másolási tevékenység fogadómodellje

Property Leírás Required
típus A másolási tevékenység fogadójának típustulajdonságát Az AzureBlobFSSink értékre kell állítani. Igen
copyBehavior Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok.

Az engedélyezett értékek a következők:
- PreserveHierarchy (alapértelmezett): Megőrzi a fájlhierarchiát a célmappában. A forrásfájlnak a forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útával.
- FlattenHierarchy: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek.
- MergeFiles: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájlnév meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa

"activities":[
    {
        "name": "CopyToADLSGen2",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<ADLS Gen2 output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureBlobFSSink",
                "copyBehavior": "PreserveHierarchy"
            }
        }
    }
]

Adatváltozások rögzítése

Az Azure Data Factory csak az Azure Data Lake Storage Gen2-ből tud új vagy módosított fájlokat lekérni azáltal, hogy engedélyezi a változásadat-rögzítést a leképezési adatfolyam forrásátalakításában. Ezzel az összekötővel csak új vagy frissített fájlokat olvashat, és átalakításokat alkalmazhat, mielőtt az átalakított adatokat betöltené a választott céladatkészletekbe.

Győződjön meg arról, hogy a folyamat és a tevékenység neve változatlan marad, hogy az ellenőrzőpont mindig rögzíthető legyen az utolsó futtatásból a módosítások lekéréséhez. Ha módosítja a folyamat nevét vagy tevékenységnevét, az ellenőrzőpont alaphelyzetbe áll, és a következő futtatástól kezdve indul.

A folyamat hibakeresésekor a módosítási adatrögzítés engedélyezése is működik. Vegye figyelembe, hogy az ellenőrzőpont alaphelyzetbe áll, amikor frissíti a böngészőt a hibakeresési futtatás során. Miután elégedett a hibakeresési futtatás eredményével, közzéteheti és aktiválhatja a folyamatot. A hibakeresési futtatás által rögzített előző ellenőrzőponttól függetlenül mindig az elejétől indul.

A figyelési szakaszban mindig lehetősége van egy folyamat újrafuttatására. Ha így tesz, a módosítások mindig a kiválasztott folyamatfuttatás ellenőrzőpont-rekordjából származnak.

A másolási tevékenység által forrásként és fogadóként támogatott adattárak listáját lásd : Támogatott adattárak.