Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A következőkre vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tip
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk azt ismerteti, hogyan használhatja a másolási tevékenységet az Azure Data Factoryben és az Azure Synapse-folyamatokban az adatok Azure Blob Storage-ból és az Azure Blob Storage-ba való másolásához. Azt is ismerteti, hogyan alakíthat át adatokat az Azure Blob Storage-ban az adatfolyam-tevékenység használatával. További információkért olvassa el az Azure Data Factory és az Azure Synapse Analytics bevezető cikkeit.
Tip
A data lake-hez vagy adattárházhoz tartozó migrálási forgatókönyvről a data lake-ből vagy adattárházból az Azure-ba történő migrálás című cikkből tájékozódhat.
Támogatott képességek
Ez az Azure Blob Storage-összekötő a következő képességeket támogatja:
| Támogatott képességek | integrációs modul | Felügyelt privát végpont |
|---|---|---|
| Másolási művelet (forrás/tároló) | (1) (2) | ** ✓ Tárfiók V1 kizárása |
| Adatfolyam leképezése (forrás/fogadó) | ① | ** ✓ Tárfiók V1 kizárása |
| Keresési tevékenység | (1) (2) | ** ✓ Tárfiók V1 kizárása |
| GetMetadata-tevékenység | (1) (2) | ** ✓ Tárfiók V1 kizárása |
| Tevékenység törlése | (1) (2) | ** ✓ Tárfiók V1 kizárása |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
A másolási tevékenységhez ez a Blob Storage-összekötő a következőket támogatja:
- Blobok másolása általános rendeltetésű Azure Storage-fiókokba, valamint gyakori és ritka elérésű blobtárolókba.
- Blobok másolása fiókkulcs, szolgáltatásmegosztási jogosultságkód (SAS), szolgáltatásnév vagy felügyelt identitás használatával az Azure-erőforrás-hitelesítésekhez.
- Blobok másolása blokkokból, hozzáfűzőkből vagy lapblobokból, és adatok másolása csak blokkblobokba.
- Blobok másolása, illetve blobok elemzése vagy generálása támogatott fájlformátumokkal és tömörítési kodekekkel.
- A fájl metaadatainak megőrzése másolás közben.
Első lépések
A másolási tevékenység végrehajtásához egy folyamattal használhatja az alábbi eszközök vagy SDK-k egyikét:
- Adatok másolása eszköz
- Azure Portál
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Azure Resource Manager-sablon
Azure Blob Storage társított szolgáltatás létrehozása felhasználói felületen
Az alábbi lépéseket követve hozzon létre egy Azure Blob Storage társított szolgáltatást az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd válassza az Új lehetőséget:
Keresse meg a blobot, és válassza ki az Azure Blob Storage-összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Az összekötő konfigurációjának részletei
Az alábbi szakaszok a Data Factory és a Synapse-folyamat entitásainak a Blob Storage-ra vonatkozó definiálásához használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
Ez a Blob Storage-összekötő a következő hitelesítési típusokat támogatja. Részletekért tekintse meg a megfelelő szakaszokat.
- Névtelen hitelesítés
- Fiókkulcs-hitelesítés
- Közös hozzáférésű jogosultságkód hitelesítése
- Szolgáltatás főpéldányának hitelesítése
- Rendszer által hozzárendelt felügyelt identitás hitelesítése
- Felhasználó által hozzárendelt felügyelt identitás hitelesítése
Note
- Ha a globális Azure-integrációs futtatókörnyezetet szeretné használni a Blob Storage-hoz való csatlakozáshoz, az Azure Storage tűzfalán az engedélyezve van a Megbízható Microsoft-szolgáltatások hozzáférése ehhez a tárfiókhoz lehetőséget bekapcsolva, akkor felügyelt identitáshitelesítést kell alkalmaznia. További információ az Azure Storage-tűzfalak beállításairól: Azure Storage-tűzfalak és virtuális hálózatok konfigurálása.
- Amikor PolyBase vagy COPY utasítást használ az adatok Azure Synapse Analytics-be történő betöltéséhez, amennyiben a forrás- vagy átmeneti Blob-tároló az Azure virtuális hálózati végpontjával van konfigurálva, az Azure Synapse által megkövetelt felügyelt identitáshitelesítést kell alkalmazni. További konfigurációs előfeltételekért tekintse meg a felügyelt identitáshitelesítési szakaszt.
Note
Az Azure HDInsight és az Azure Machine Learning-tevékenységek csak az Azure Blob Storage-fiókkulcsokat használó hitelesítést támogatják.
Névtelen hitelesítés
A következő tulajdonságok támogatottak a tárfiókkulcs-hitelesítéshez az Azure Data Factoryben vagy a Synapse-folyamatokban:
| Property | Description | Required |
|---|---|---|
| típus | A type tulajdonságot be kell állítani AzureBlobStorage (javasolt) vagy AzureStorage (lásd a következő megjegyzéseket). |
Yes |
| containerUri | Adja meg azt az Azure Blob-tároló URI-t, amely engedélyezte a névtelen olvasási hozzáférést ezzel a formátummal https://<AccountName>.blob.core.windows.net/<ContainerName> , és konfigurálja a tárolók és blobok névtelen nyilvános olvasási hozzáférését |
Yes |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Example:
{
"name": "AzureBlobStorageAnonymous",
"properties": {
"annotations": [],
"type": "AzureBlobStorage",
"typeProperties": {
"containerUri": "https:// <accountname>.blob.core.windows.net/ <containername>",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példák felhasználói felületre:
A felhasználói felület a következő képen látható módon jelenik meg. Ez a minta egy Nyílt Azure-adatkészletet használt forrásként.
Fiókkulcs-hitelesítés
A következő tulajdonságok támogatottak a tárfiókkulcs-hitelesítéshez az Azure Data Factoryben vagy a Synapse-folyamatokban:
| Property | Description | Required |
|---|---|---|
| típus | A type tulajdonságot be kell állítani AzureBlobStorage (javasolt) vagy AzureStorage (lásd a következő megjegyzéseket). |
Yes |
| connectionString | Adja meg a connectionString tulajdonság Storage-hoz való csatlakozáshoz szükséges információkat. A fiókkulcsot az Azure Key Vaultban is elhelyezheti, és lekérheti a accountKey konfigurációt a kapcsolati karakterláncból. További információkért tekintse meg az alábbi mintákat, valamint az Azure Key Vaultban történő hitelesítő adatok tárolásáról szóló cikket. |
Yes |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Note
A másodlagos blobszolgáltatás-végpontok nem támogatottak a fiókkulcs-hitelesítés használatakor. Más hitelesítési típusokat is használhat.
Note
Ha a AzureStorage társított típusú szolgáltatást használja, az továbbra is támogatott. Javasoljuk azonban, hogy az új AzureBlobStorage társított szolgáltatástípust használja tovább.
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példa: a fiókkulcs tárolása az Azure Key Vaultban
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
"accountKey": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Közös hozzáférésű jogosultságkód hitelesítése
A megosztott hozzáférésű jogosultságkód delegált hozzáférést biztosít a tárfiók erőforrásaihoz. A megosztott hozzáférésű jogosultságkódokkal korlátozott engedélyeket adhat egy ügyfélnek a tárfiókban lévő objektumokhoz egy adott időre.
Nem kell megosztania a fiók hozzáférési kulcsait. A közös hozzáférésű jogosultságkód egy URI, amely a lekérdezési paraméterekben tartalmazza a tárerőforráshoz való hitelesített hozzáféréshez szükséges összes információt. A megosztott hozzáférésű jogosultságkóddal rendelkező tárolási erőforrások eléréséhez az ügyfélnek csak a közös hozzáférésű jogosultságkódot kell átadnia a megfelelő konstruktornak vagy metódusnak.
A közös hozzáférésű jogosultságkódokkal kapcsolatos további információkért lásd : Közös hozzáférésű jogosultságkódok: A közös hozzáférésű jogosultságkód-modell ismertetése.
Note
- A szolgáltatás mostantól támogatja a szolgáltatás közös hozzáférésű jogosultságkódjait és a fiók közös hozzáférésű jogosultságkódjait is. A megosztott hozzáférésű jogosultságkódokkal kapcsolatos további információkért lásd: Korlátozott hozzáférés biztosítása az Azure Storage-erőforrásokhoz megosztott hozzáférésű jogosultságkódokkal.
- A későbbi adathalmaz-konfigurációkban a mappa elérési útja a tárolószinttől kezdődő abszolút elérési út. Konfigurálnia kell egy, az SAS URI-ban található elérési útnak megfelelőt.
A következő tulajdonságok támogatottak a közös hozzáférésű jogosultságkód-hitelesítés használatához:
| Property | Description | Required |
|---|---|---|
| típus | A type tulajdonságot be kell állítani AzureBlobStorage (javasolt) vagy AzureStorage (lásd a következő megjegyzést). |
Yes |
| sasUri | Adja meg a megosztott hozzáférésű jogosultságkód URI-jának használatát a Storage-erőforrásokhoz, például a blobhoz vagy a tárolóhoz. Jelölje meg ezt a mezőt, hogy SecureString biztonságban tárolódjon. Az SAS-jogkivonatot az Azure Key Vaultban is elhelyezheti az automatikus elforgatás érdekében, így a tokenrészt is eltávolíthatja szükség esetén. További információ: az alábbi minták és a hitelesítő adatok tárolása az Azure Key Vaultban. |
Yes |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Note
Ha a AzureStorage társított típusú szolgáltatást használja, az továbbra is támogatott. Javasoljuk azonban, hogy az új AzureBlobStorage társított szolgáltatástípust használja tovább.
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példa: a fiókkulcs tárolása az Azure Key Vaultban
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
},
"sasToken": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Amikor közös hozzáférésű jogosultságkód URI-t hoz létre, vegye figyelembe a következő szempontokat:
- Állítsa be a megfelelő olvasási/írási engedélyeket az objektumokon a társított szolgáltatás (olvasás, írás, olvasás/írás) használata alapján.
- A lejárati idő megfelelő beállítása. Győződjön meg arról, hogy a Storage-objektumokhoz való hozzáférés nem jár le a folyamat aktív időszakában.
- Az URI-t szükség szerint a megfelelő tárolóban vagy blobban kell létrehozni. A blobok közös hozzáférésű jogosultságkódjának URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat hozzáférjen az adott blobhoz. A Blob Storage-tárolók közös hozzáférésű jogosultságkódjának URI-ja lehetővé teszi, hogy az adat-előállító vagy a Synapse-folyamat iteráljon a tárolóban lévő blobokon keresztül. Ha később több vagy kevesebb objektumhoz szeretne hozzáférést biztosítani, vagy frissíteni szeretné a közös hozzáférésű jogosultságkód URI-ját, ne felejtse el frissíteni a társított szolgáltatást az új URI-val.
Szolgáltatási főnév hitelesítése
Az Azure Storage szolgáltatásnév-hitelesítésével kapcsolatos általános információkért lásd : Azure Storage-hozzáférés hitelesítése a Microsoft Entra ID használatával.
A szolgáltatásnév-hitelesítés használatához kövesse az alábbi lépéseket:
Alkalmazás regisztrálása a Microsoft Identity Platformon. A "Hogyan?" kérdésre a Gyorsútmutató: Alkalmazás regisztrálása a Microsoft identitásplatformon című részben talál választ. Jegyezze fel ezeket az értékeket, amelyeket a társított szolgáltatás definiálásához használ:
- Pályázat azonosítója
- Alkalmazáskulcs
- Bérlő azonosító
Adjon megfelelő engedélyt a szolgáltatási főszereplőnek az Azure Blob Storage-ban. A szerepkörökről további információt a következő részben talál: Azure Portál használata az Azure-szerepkör hozzárendeléséhez blob- és üzenetsoradatok eléréséhez.
- Forrásként, a hozzáférés-vezérlésben (IAM)adja meg legalább a Storage Blob Data Reader szerepkört.
- Fogadóként a Hozzáférés-vezérlés (IAM) szolgáltatásban adjon meg legalább a Storage Blob Data Contributor szerepkört.
Ezek a tulajdonságok az Azure Blob Storage társított szolgáltatásához támogatottak:
| Property | Description | Required |
|---|---|---|
| típus | A típustulajdonságotAzureBlobStorage értékre kell állítani. | Yes |
| serviceEndpoint | Adja meg az Azure Blob Storage szolgáltatásvégpontját https://<accountName>.blob.core.windows.net/a következő mintával: . |
Yes |
| accountKind | Adja meg a tárfiók típusát. Az engedélyezett értékek a következők: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage vagy BlockBlobStorage. Ha az Azure Blob kapcsolt szolgáltatását használja az adatfolyamban, a felügyelt identitással vagy szolgáltatásnévvel történő hitelesítés nem támogatott, ha a fiók típusa üres vagy "Storage". Adja meg a megfelelő fióktípust, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re. |
No |
| servicePrincipalId | Adja meg az alkalmazás ügyfél-azonosítóját. | Yes |
| servicePrincipalCredentialType | A szolgáltatásazonosítós hitelesítéshez használandó hitelesítőadat-típus. Az engedélyezett értékek a ServicePrincipalKey és a ServicePrincipalCert. | Yes |
| servicePrincipalCredential | A szolgáltatás fő hitelesítő adatai. Ha a ServicePrincipalKey-t használja hitelesítő adattípusként, adja meg az alkalmazás kulcsát. Jelölje meg ezt a mezőt SecureStringként , hogy biztonságosan tárolja, vagy hivatkozzon az Azure Key Vaultban tárolt titkos kódra. Ha a ServicePrincipalCertet használja hitelesítő adatként, hivatkozzon egy tanúsítványra az Azure Key Vaultban, és győződjön meg arról, hogy a tanúsítvány tartalomtípusa PKCS #12. |
Yes |
| bérlő | Adja meg azt a bérlői információt (tartománynevet vagy bérlőazonosítót), amely alatt az alkalmazás található. Vigye az egérmutatót az Azure portal jobb felső sarkára, hogy lekérje. | Yes |
| azureCloudType | A szolgáltatásnév hitelesítéséhez adja meg az Azure-felhőkörnyezet típusát, amelyhez a Microsoft Entra-alkalmazás regisztrálva van. Az engedélyezett értékek az AzurePublic, az AzureChina, az AzureUsGovernment és az AzureGermany. Alapértelmezés szerint a rendszer az adat-előállítót vagy a Synapse-folyamat felhőkörnyezetét használja. |
No |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Note
- Ha a blobfiók engedélyezi a helyreállítható törlést, a szolgáltatásfőazonosító hitelesítése nem támogatott az adatfolyamban.
- Ha privát végponton keresztül éri el a blobtárolót az Adatfolyam használatával, vegye figyelembe, hogy a szolgáltatásnév-hitelesítés használatakor az Adatfolyam a Blob-végpont helyett az ADLS Gen2 végponthoz csatlakozik. A hozzáférés engedélyezéséhez mindenképpen hozza létre a megfelelő privát végpontot az adat-előállítóban vagy a Synapse-munkaterületen.
Note
A szolgáltatásnév-alapú hitelesítést csak az "AzureBlobStorage" típusú hozzárendelt szolgáltatás támogatja, az "AzureStorage" típusú hozzárendelt szolgáltatás nem.
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2",
"servicePrincipalId": "<service principal id>",
"servicePrincipalKey": {
"type": "SecureString",
"value": "<service principal key>"
},
"tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Rendszer által hozzárendelt felügyelt identitás hitelesítése
Egy adat-előállító vagy Synapse-folyamat társítható az Azure-erőforrások rendszer által hozzárendelt felügyelt identitásával, amely ezt az erőforrást jelöli más Azure-szolgáltatásokhoz való hitelesítéshez. Ezt a rendszer által hozzárendelt felügyelt identitást közvetlenül használhatja a Blob Storage-hitelesítéshez, amely hasonló a saját szolgáltatásnév használatához. Ez lehetővé teszi, hogy ez a kijelölt erőforrás hozzáférjen és adatokat másoljon a Blob Storage-ból vagy a Blob Storage-ba. Az Azure-erőforrások felügyelt identitásairól további információt az Azure-erőforrások felügyelt identitásai című témakörben talál .
Az Azure Storage-hitelesítéssel kapcsolatos általános információkért lásd : Azure Storage-hozzáférés hitelesítése a Microsoft Entra ID használatával. Felügyelt identitások Azure-erőforrás-hitelesítéshez való használatához kövesse az alábbi lépéseket:
A rendszer által hozzárendelt felügyelt identitás adatainak lekéréséhez másolja a rendszer által hozzárendelt felügyelt identitásobjektum-azonosító értékét a gyári vagy a Synapse-munkaterülettel együtt.
Adjon engedélyt a felügyelt identitásnak az Azure Blob Storage-ban. A szerepkörökről további információt a következő részben talál: Azure Portál használata az Azure-szerepkör hozzárendeléséhez blob- és üzenetsoradatok eléréséhez.
- Forrásként, a hozzáférés-vezérlésben (IAM)adja meg legalább a Storage Blob Data Reader szerepkört.
- Fogadóként a Hozzáférés-vezérlés (IAM) szolgáltatásban adjon meg legalább a Storage Blob Data Contributor szerepkört.
Ezek a tulajdonságok az Azure Blob Storage társított szolgáltatásához támogatottak:
| Property | Description | Required |
|---|---|---|
| típus | A típustulajdonságotAzureBlobStorage értékre kell állítani. | Yes |
| serviceEndpoint | Adja meg az Azure Blob Storage szolgáltatásvégpontját https://<accountName>.blob.core.windows.net/a következő mintával: . |
Yes |
| accountKind | Adja meg a tárfiók típusát. Az engedélyezett értékek a következők: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage vagy BlockBlobStorage. Ha az Azure Blob kapcsolt szolgáltatását használja az adatfolyamban, a felügyelt identitással vagy szolgáltatásnévvel történő hitelesítés nem támogatott, ha a fiók típusa üres vagy "Storage". Adja meg a megfelelő fióktípust, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re. |
No |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Felhasználó által hozzárendelt felügyelt identitás hitelesítése
Egy adatgyár egy vagy több felhasználó által hozzárendelt felügyelt identitással hozzárendelhető. Ezt a felhasználó által hozzárendelt felügyelt identitást használhatja a Blob Storage-hitelesítéshez, amely lehetővé teszi az adatok elérését és másolását a Blob Storage-ból vagy a Blob Storage-ba. Az Azure-erőforrások felügyelt identitásairól további információt az Azure-erőforrások felügyelt identitásai című témakörben talál .
Az Azure Storage-hitelesítéssel kapcsolatos általános információkért lásd : Azure Storage-hozzáférés hitelesítése a Microsoft Entra ID használatával. A felhasználó által hozzárendelt felügyelt identitáshitelesítés használatához kövesse az alábbi lépéseket:
Hozzon létre egy vagy több felhasználó által hozzárendelt felügyelt identitást , és adjon engedélyt az Azure Blob Storage-ban. A szerepkörökről további információt a következő részben talál: Azure Portál használata az Azure-szerepkör hozzárendeléséhez blob- és üzenetsoradatok eléréséhez.
- Forrásként, a hozzáférés-vezérlésben (IAM)adja meg legalább a Storage Blob Data Reader szerepkört.
- Fogadóként a Hozzáférés-vezérlés (IAM) szolgáltatásban adjon meg legalább a Storage Blob Data Contributor szerepkört.
Rendeljen hozzá egy vagy több felhasználó által hozzárendelt felügyelt identitást az adat-előállítóhoz, és hozzon létre hitelesítő adatokat minden felhasználó által hozzárendelt felügyelt identitáshoz.
Ezek a tulajdonságok az Azure Blob Storage társított szolgáltatásához támogatottak:
| Property | Description | Required |
|---|---|---|
| típus | A típustulajdonságotAzureBlobStorage értékre kell állítani. | Yes |
| serviceEndpoint | Adja meg az Azure Blob Storage szolgáltatásvégpontját https://<accountName>.blob.core.windows.net/a következő mintával: . |
Yes |
| accountKind | Adja meg a tárfiók típusát. Az engedélyezett értékek a következők: Storage (általános célú v1), StorageV2 (általános célú v2), BlobStorage vagy BlockBlobStorage. Ha az Azure Blob társított szolgáltatást használja az adatfolyamban, a felügyelt identitás vagy szolgáltatásnév alapú hitelesítés nem támogatott, ha a fióktípus üres vagy "Storage". Adja meg a megfelelő fióktípust, válasszon másik hitelesítést, vagy frissítse a tárfiókot általános célú v2-re. |
No |
| azonosító adatok | Adja meg a felhasználó által hozzárendelt felügyelt identitást hitelesítő objektumként. | Yes |
| connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs futtatókörnyezet. Használhatja az Azure integrációs modult vagy a saját üzemeltetésű integrációs modult (ha az adattár magánhálózaton található). Ha ez a tulajdonság nincs megadva, a szolgáltatás az alapértelmezett Azure-integrációs modult használja. | No |
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2",
"credential": {
"referenceName": "credential1",
"type": "CredentialReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
Ha PolyBase vagy COPY utasítással tölt be adatokat a Blob Storage-ból (forrásként vagy előkészítésként) az Azure Synapse Analyticsbe, akkor a Blob Storage felügyelt identitáshitelesítésének használatakor kövesse az útmutató 1–3. lépését is. Ezek a lépések regisztrálják a kiszolgálót a Microsoft Entra-azonosítóval, és hozzárendelik a storage blobadatok közreműködői szerepkörét a kiszolgálóhoz. A Data Factory kezeli a többit. Ha azure-beli virtuális hálózati végponttal konfigurálja a Blob Storage-t, akkor azt is engedélyeznie kell, hogy a megbízható Microsoft-szolgáltatások hozzáférjenek ehhez a tárfiókhoz az Azure Storage-fiók tűzfalai és a virtuális hálózatok beállításai menüben az Azure Synapse által megkövetelt módon.
Note
- Ha a blobfiók engedélyezi a puha törlést, a rendszer által vagy felhasználó által hozzárendelt felügyelt identitással történő hitelesítés nem támogatott az adatfolyamban.
- Ha privát végponton keresztül éri el a blobtárolót az Adatfolyam használatával, vegye figyelembe, hogy a rendszer által hozzárendelt/felhasználó által hozzárendelt felügyelt identitás hitelesítése esetén a Data Flow blobvégpont helyett az ADLS Gen2 végponthoz csatlakozik. A hozzáférés engedélyezéséhez mindenképpen hozza létre a megfelelő privát végpontot az ADF-ben.
Note
A rendszer által hozzárendelt/felhasználó által hozzárendelt felügyelt identitás hitelesítését csak az "AzureBlobStorage" típusú társított szolgáltatás támogatja, az előző "AzureStorage" típusú társított szolgáltatás nem.
Adatkészlet tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című cikkben találja.
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az alábbi tulajdonságok támogatottak az Azure Blob Storage formátumalapú adatkészletének location beállításai alatt:
| Property | Description | Required |
|---|---|---|
| típus | Az adathalmaz helyének típustulajdonságát AzureBlobStorageLocation értékre kell állítani. | Yes |
| tároló | A blobtároló. | Yes |
| folderPath | Az adott tároló alatti mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | No |
| fileName | A megadott tároló és mappa elérési útja alatti fájlnév. Ha helyettesítő karaktert szeretne használni a fájlok szűréséhez, hagyja ki ezt a beállítást, és adja meg a tevékenység forrásbeállításaiban. | No |
Example:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok című cikkben találja. Ez a szakasz a Blob storage forrás és fogadó által támogatott tulajdonságok listáját tartalmazza.
Blob Storage forrástípusként
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
Az alábbi tulajdonságok támogatottak az Azure Blob Storage formátumalapú másolási forrásánál a storeSettings beállításai között.
| Property | Description | Required |
|---|---|---|
| típus | A típustulajdonságnak az storeSettingsAzureBlobStorageReadSettings értékre kell állítania. |
Yes |
| Keresse meg a másolandó fájlokat: | ||
| 1. LEHETŐSÉG: statikus elérési út |
Másolja ki az adathalmazban megadott tárolóból vagy mappából/fájl elérési útból. Ha az összes blobot egy tárolóból vagy mappából szeretné másolni, akkor meg kell adnia úgy, hogy wildcardFileName* legyen. |
|
| 2. LEHETŐSÉG: blob előtag -prefixum |
Az adatkészletben konfigurált blobnév-előtag az adott tárolóban található forrásblobok szűrésére szolgál. Azok a blobok, amelyek nevével container_in_dataset/this_prefix kezdődnek, ki vannak jelölve. A Blob Storage szolgáltatásoldali szűrőt használja, amely jobb teljesítményt nyújt, mint egy helyettesítő karakterszűrő.Ha előtagot használ, és úgy dönt, hogy a hierarchiát megőrző fájlalapú fogadóhelyre másol, jegyezze fel az útvonal utolsó "/" utáni alútvonalát az előtagban. Például rendelkezik egy forrással container/folder/subfolder/file.txt, és beállítja az előtagot folder/sub, akkor a megtartott fájl elérési útja subfolder/file.txt. |
No |
| 3. LEHETŐSÉG: helyettesítő karakter - helyettesítő karakterekFolderPath |
A könyvtár elérési út helyettesítő karakterekkel az adott tároló alatt, amely egy adatkészletben konfigurálva van a forráskönyvtárak szűrésére. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). Az ^ használható, ha a mappa neve helyettesítő karaktert vagy escape karaktert tartalmaz. További példák a mappa- és fájlszűrő példákban. |
No |
| 3. LEHETŐSÉG: helyettesítő karakter - wildcardFileName |
A fájl neve, amely helyettesítő karaktereket tartalmaz a megadott tároló- és mappaelérési út alatt (vagy helyettesítő mappaelérési út), a forrásfájlok szűréséhez. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). Használja a ^ jelet a kimeneküléshez, ha a fájlnév tartalmaz helyettesítő karaktert vagy ezt a kimenekülési karaktert. További példák a mappa- és fájlszűrő példákban. |
Yes |
| 4. LEHETŐSÉG: a fájlok listája - fileListPath |
Egy adott fájlkészlet másolását jelzi. Adjon meg egy szövegfájlt, amely tartalmazza a másolandó fájlok listáját, úgy, hogy minden sor egy fájlt tartalmazzon, ami az adathalmazban konfigurált elérési útvonalhoz képesti relatív útvonal. Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példákat a Fájl lista példái között talál. |
No |
| További beállítások: | ||
| recursive | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Vegye figyelembe, hogy ha a rekurzív értéke igaz , és a fogadó fájlalapú tároló, akkor a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az megengedett értékek: true (alapértelmezett) és false. Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
No |
| deleteFilesAfterCompletion | Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájl törlése fájlonként történik. Ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak. Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis. |
No |
| modifiedDatetimeStart | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő modifiedDatetimeStart-nél, és kisebb, mint modifiedDatetimeEnd-nél. Az idő a "2018-12-01T05:00:00Z" formátumú UTC időzónára lesz alkalmazva. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEndNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értéknél. Ha modifiedDatetimeEnd dátum/idő érték van megadva, de modifiedDatetimeStartNULL értékű, a program kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb a datetime értéknél.Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath. |
No |
| modifiedDatetimeEnd | Ugyanaz, mint az előző tulajdonság. | No |
| enablePartitionDiscovery | A particionált fájlok esetében adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és hozzáadja-e őket további forrásoszlopokként. Az engedélyezett értékek hamis (alapértelmezett) és igaz. |
No |
| partitionRootPath | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. Ha nincs megadva, alapértelmezés szerint – Amikor fájlelérési utakat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az az útvonal, amely az adathalmazban van konfigurálva. – Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal. - Előtag használata esetén a partíció gyökérútvonala az utolsó "/" előtti alútvonal. Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja: - Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.– Ha nincs megadva a partíció gyökérútvonala, a rendszer nem hoz létre további oszlopot. |
No |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | No |
Note
Parquet/tagolt szövegformátum esetén a következő szakaszban említett másolási tevékenységforrás BlobSource típusa továbbra is támogatott, ahogy a visszamenőleges kompatibilitás esetében is. Javasoljuk, hogy addig használja az új modellt, amíg a szerzői felhasználói felület át nem vált az új típusok létrehozására.
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "AzureBlobStorageReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Note
A $logs tároló, amely automatikusan létrejön, amikor a Storage Analytics engedélyezve van egy tárfiókhoz, nem jelenik meg, ha a tárolólista-művelet a felhasználói felületen keresztül történik. A fájl elérési útját közvetlenül az adat-előállító vagy a Synapse-folyamat számára kell megadni a $logs tárolóból származó fájlok felhasználásához.
Blob Storage mint fogadótípus
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
Az Azure Blob Storage storeSettings beállításai között a formátumalapú másolási fogadó esetében az alábbi tulajdonságok támogatottak:
| Property | Description | Required |
|---|---|---|
| típus | Az type alatta lévő storeSettings tulajdonságnak a következőre kell állítania: AzureBlobStorageWriteSettings. |
Yes |
| copyBehavior | Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok. Az engedélyezett értékek a következők: - PreserveHierarchy (alapértelmezett): Megőrzi a fájlhierarchiát a célmappában. A forrásfájlnak a forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útával. - FlattenHierarchy: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek. - MergeFiles: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájl vagy a blob neve meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév. |
No |
| blockSizeInMB | Adja meg a blokkméretet megabájtban, amelyet az adatok blokkokba történő írásához használnak. További információ a blokkblobokról. Az engedélyezett érték 4 MB és 100 MB között van. Alapértelmezés szerint a szolgáltatás automatikusan meghatározza a blokk méretét a forrástár típusa és adatai alapján. A Blob Storage-ba való nem kötéses másolás esetén az alapértelmezett blokkméret 100 MB, így legfeljebb 4,95 TB-os adathoz fér el. Előfordulhat, hogy nem optimális, ha az adatok nem nagyok, különösen akkor, ha a saját üzemeltetésű integrációs modult gyenge hálózati kapcsolatokkal használja, amelyek működési időtúllépést vagy teljesítményproblémákat eredményeznek. Explicit módon megadhatja a blokkméretet, miközben biztosíthatja, hogy blockSizeInMB*50000 elég nagy legyen az adatok tárolásához. Ellenkező esetben a másolási tevékenység futtatása sikertelen lesz. |
No |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | No |
| metaadat | Egyéni metaadatok beállítása fogadóba másoláskor. A tömb alatti metadata objektumok egy további oszlopot jelölnek. Ez name határozza meg a metaadatkulcs nevét, és a value kulcs adatértékét. Ha az attribútumok megőrzése funkciót használja, a megadott metaadatok egyesülnek/felülírják a forrásfájl metaadatait.Az engedélyezett adatértékek a következők: - $$LASTMODIFIED: a fenntartott változó azt jelzi, hogy a forrásfájlok utolsó módosítási ideje tárolható. Csak bináris formátumú fájlalapú forrásra alkalmazható.-Kifejezés - Statikus érték |
No |
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Parquet output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "ParquetSink",
"storeSettings":{
"type": "AzureBlobStorageWriteSettings",
"copyBehavior": "PreserveHierarchy",
"metadata": [
{
"name": "testKey1",
"value": "value1"
},
{
"name": "testKey2",
"value": "value2"
},
{
"name": "lastModifiedKey",
"value": "$$LASTMODIFIED"
}
]
}
}
}
}
]
Mappa- és fájlszűrő példák
Ez a szakasz a mappa elérési útjának és a fájlneveknek a helyettesítő karaktereket tartalmazó szűrők általi viselkedését ismerteti.
| folderPath | fileName | recursive | A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri) |
|---|---|---|---|
container/Folder* |
(üres, alapértelmezett beállítás) | false | tároló FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
(üres, alapértelmezett beállítás) | true | tároló FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
*.csv |
false | tároló FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
*.csv |
true | tároló FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Példák fájllistára
Ez a szakasz a másolási tevékenység forrásában található fájllista elérési útjának használatát ismerteti.
Tegyük fel, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér formátumban szeretné másolni a fájlokat:
| Minta forrásstruktúra | Tartalom a FileListToCopy.txt fájlban | Configuration |
|---|---|---|
| tároló FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv Metadata FileListToCopy.txt |
File1.csv Subfolder1/File3.csv Subfolder1/File5.csv |
Adatkészletben: -Konténer: container- Mappa elérési útja: FolderAMásolási tevékenység forrása: - Fájllista elérési útja: container/Metadata/FileListToCopy.txt A fájllista elérési útja ugyanabban az adattárban található szövegfájlra mutat, amely tartalmazza a másolni kívánt fájlok listáját. Soronként egy fájlt tartalmaz, a fájl relatív elérési útja az adathalmazban konfigurált elérési útvonalhoz kapcsolódik. |
Néhány rekurzív és copyBehavior példa
Ez a szakasz a Másolás művelet eredményül kapott viselkedését ismerteti a rekurzív és a copyBehavior értékek különböző kombinációihoz.
| recursive | copyBehavior | Forrásmappa-struktúra | Eredményként kapott cél |
|---|---|---|---|
| true | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappa a forrással megegyező struktúrával jön létre: Folder1 File1 File2 Subfolder1 File3 File4 File5 |
| true | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappája a következő struktúrával jön létre: Folder1 a Fájl1 automatikusan létrehozott neve Az automatikusan létrehozott név a File2-höz. a Fájl3 automatikusan létrehozott neve a Fájl4 automatikusan létrehozott neve a Fájl5 automatikusan létrehozott neve |
| true | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappája a következő struktúrával jön létre: Folder1 File1 + File2 + File3 + File4 + File5 tartalom egyesítése egy fájlba egy automatikusan létrehozott fájlnévvel. |
| false | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappája a következő struktúrával jön létre: Folder1 File1 File2 A Subfolder1 mappa, amely a File3, File4 és File5 fájlokat tartalmazza, nincs felvéve. |
| false | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappája a következő struktúrával jön létre: Folder1 a Fájl1 automatikusan létrehozott neve Az automatikusan létrehozott név a File2-höz. A Subfolder1 mappa, amely a File3, File4 és File5 fájlokat tartalmazza, nincs felvéve. |
| false | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
A mappa1 célmappája a következő struktúrával jön létre: Folder1 Az 1. és a 2. fájl tartalma egy automatikusan létrehozott fájlnévvel rendelkező fájlba egyesül. a Fájl1 automatikusan létrehozott neve A Subfolder1 mappa, amely a File3, File4 és File5 fájlokat tartalmazza, nincs felvéve. |
Metaadatok megőrzése másolás közben
Ha az Amazon S3, az Azure Blob Storage vagy az Azure Data Lake Storage Gen2-ből az Azure Data Lake Storage Gen2-be vagy az Azure Blob Storage-ba másol fájlokat, dönthet úgy, hogy az adatokkal együtt megőrzi a fájl metaadatait. További információ a metaadatok megőrzéséről.
Adatfolyam-tulajdonságok leképezése
A leképezési adatfolyamok adatainak átalakításakor a következő formátumokban olvashat és írhat fájlokat az Azure Blob Storage-ból:
A formátumspecifikus beállítások az adott formátum dokumentációjában találhatók. További információ: Forrásátalakítás a leképezési adatfolyamban és fogadóátalakítás a leképezési adatfolyamban.
Forrásátalakítás
A forrásátalakítás során egy tárolóból, mappából vagy egyéni fájlból olvashat az Azure Blob Storage-ban. A Forrásbeállítások lapon kezelheti a fájlok olvasási módját.
Helyettesítő karakterek elérési útjai: A helyettesítő karakterek mintája arra utasítja a szolgáltatást, hogy egyetlen forrásátalakítás során végighaladjon az egyes egyező mappákon és fájlokon. Ez egy hatékony módja annak, hogy több fájlt dolgozzanak fel egyetlen folyamaton belül. Adjon hozzá több helyettesítő karakterillesztési mintát a pluszjelet használva, amely megjelenik, amikor az egeret a meglévő helyettesítő mintára mozgatja.
A forrástárolóban válasszon ki egy mintának megfelelő fájlsorozatot. Az adathalmazban csak tároló adható meg. Ezért a helyettesítő karaktert tartalmazó elérési útnak a gyökérmappától kezdődő mappa elérési útját is tartalmaznia kell.
Példák helyettesítő karakterekre:
*Bármilyen karakterkészletet jelöl.**Rekurzív könyvtárbe ágyazást jelöl.?Egy karaktert cserél le.[]Illeszkedik egy vagy több karakterre a szögletes zárójelekben./data/sales/**/*.csvLekéri az összes .csv fájlt a /data/sales területen./data/sales/20??/**/Lekéri az összes fájlt a 20. században./data/sales/*/*/*.csvLekéri .csv fájlok két szintjét az /data/sales alatt./data/sales/2004/*/12/[XY]1?.csv2004 decemberében lekéri az összes .csv fájlt, amely egy kétjegyű számmal ellátott X vagy Y előtaggal kezdődik.
Partíció gyökérútvonala: Ha a fájlforrásban olyan mappák vannak, amelyek partíciókra vannak osztva a következő formátummal key=value (például year=2019), akkor a partíciómappa hierarchia legfelső szintjét hozzárendelheti az adatfolyam egy adatmező nevéhez.
Először állítson be egy helyettesítő karaktert, hogy tartalmazza a particionált mappák összes elérési útját, valamint az elolvasni kívánt levélfájlokat.
A partíció gyökérútvonal-beállításával meghatározhatja, hogy mi a mappastruktúra legfelső szintje. Ha az adatok tartalmát egy adatelőnézeten keresztül tekinti meg, látni fogja, hogy a szolgáltatás hozzáadja az egyes mappaszinteken található feloldott partíciókat.
Fájlok listája: Ez egy fájlkészlet. Hozzon létre egy szövegfájlt, amely tartalmazza a feldolgozandó relatív elérésiút-fájlok listáját. Mutasson erre a szövegfájlra.
A fájlnév tárolására használt oszlop: Tárolja a forrásfájl nevét egy oszlopban az adatokban. Itt adjon meg egy új oszlopnevet a fájlnév-sztring tárolásához.
Befejezés után: Ha nem szeretne semmit tenni a forrásfájllal az adatfolyam futtatása után, törölje a forrásfájlt, vagy helyezze át a forrásfájlt. Az áthelyezés elérési útjai relatívek.
Ha a forrásfájlokat egy másik helyre szeretné áthelyezni a feldolgozás után, először válassza az "Áthelyezés" lehetőséget a fájlművelethez. Ezután állítsa be a "from" könyvtárat. Ha nem használ helyettesítő karaktereket az elérési úthoz, akkor a "from" beállítás ugyanaz lesz, mint a forrásmappa.
Ha helyettesítő karakterrel rendelkező forrásútvonallal rendelkezik, a szintaxis a következő:
/data/sales/20??/**/*.csv
A következő módon adhatja meg a "from" értéket:
/data/sales
A "to" értéket pedig a következő módon adhatja meg:
/backup/priorSales
Ebben az esetben az összes fájlt, amely forrásként /data/sales alá tartozik, áthelyezzük a /backup/priorSales alá.
Note
A fájlműveletek csak akkor futnak, ha egy adatfolyamot indít el egy folyamatfuttatásból (ami lehet hibakeresési vagy végrehajtási futtatás), amely a folyamat "Adatfolyam végrehajtása" tevékenységét használja. A fájlműveletek nem futnak adatfolyam-hibakeresési módban.
Szűrés utoljára módosítva: A feldolgozandó fájlokat úgy szűrheti, hogy megadja a legutóbbi módosítás dátumtartományát. Minden dátumidő UTC-ben van.
Változásadatok rögzítésének engedélyezése: Ha igaz, csak az utolsó futtatáskor kap új vagy módosított fájlokat. A teljes pillanatkép-adatok kezdeti betöltése mindig az első futtatáskor lesz, majd csak a következő futtatások során rögzíti az új vagy módosított fájlokat.
Fogadó tulajdonságai
A fogadóátalakítás során írhat egy tárolóba vagy egy mappába az Azure Blob Storage-ban. A Beállítások lapon kezelheti a fájlok írási módját.
Törölje a mappát: Meghatározza, hogy a célmappa törlődik-e az adatok megírása előtt.
Fájlnév beállítás: Meghatározza, hogy a célfájlok hogyan legyenek elnevezve a célmappában. A fájlnév beállításai a következők:
- Alapértelmezett: Engedélyezze a Sparknak, hogy a PART alapértelmezett érték alapján nevezze el a fájlokat.
-
Minta: Adjon meg egy mintát, amely partíciónként számba adja a kimeneti fájlokat. Például létrehoz
loans[n].csvloans1.csv,loans2.csvés így tovább. - Partíciónként: Partíciónként egy fájlnevet adjon meg.
- Adatként az oszlopban: Állítsa a kimeneti fájlt egy oszlop értékére. Az elérési út az adathalmaz-tárolóhoz viszonyítva van, nem a célmappához. Ha van egy mappa elérési útja az adathalmazban, az felülíródik.
- Kimenet egyetlen fájlba: Egyesítse a particionált kimeneti fájlokat egyetlen elnevezett fájlba. Az elérési út az adathalmaz mappához képest van. Az egyesítési művelet a csomópont mérete alapján meghiúsulhat. Ezt a lehetőséget nagy adathalmazokhoz nem javasoljuk.
Idézőjel: Meghatározza, hogy az összes értéket idézőjelek közé kell-e foglalni.
Keresési tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a keresési tevékenységet.
GetMetadata tevékenység tulajdonságai
A tulajdonságok részleteinek megismeréséhez tekintse meg a GetMetadata tevékenységét.
Tevékenységtulajdonságok törlése
A tulajdonságok részleteinek megismeréséhez ellenőrizze a Törlési tevékenységet.
Régi modellek
Note
A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy használja a korábban említett új modellt. A szerzői felhasználói felület az új modell létrehozására váltott.
Örökölt adathalmaz-modell
| Property | Description | Required |
|---|---|---|
| típus | Az type adathalmaz tulajdonságának a következőre kell lennie: AzureBlob. |
Yes |
| folderPath | A Blob Storage tárolójának és mappájának elérési útja. Az elérési úthoz helyettesítő szűrő is támogatott, kivéve a tároló nevét. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). Használja a ^ kimenekítést, ha a mappa neve helyettesítő vagy ilyen elkerülő karaktert tartalmaz. Ilyen például a következő: myblobcontainer/myblobfolder/. További példák a mappa- és fájlszűrő példákban. |
Igen a Másolás vagy keresés tevékenységhez, nem a GetMetadata tevékenységhez |
| fileName | A megadott folderPath érték alatti blobok neve vagy helyettesítő karaktere. Ha nem ad meg értéket ehhez a tulajdonsághoz, az adathalmaz a mappában lévő összes blobra mutat. A szűrő esetében az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg).- 1. példa: "fileName": "*.csv"- 2. példa: "fileName": "???20180427.txt"Használja a ^ jelet a kimeneküléshez, ha a fájlnév tartalmaz helyettesítő karaktert vagy ezt a kimenekülési karaktert.Ha fileName nincs megadva kimeneti adatkészlethez, és preserveHierarchy nincs megadva a tevékenység fogadójában, a másolási tevékenység automatikusan létrehozza a blob nevét a következő mintával: "Data.[ tevékenységfuttatás azonosítója GUID]. [GUID ha FlattenHierarchy]. [formátum, ha konfigurálva van]. [tömörítés, ha konfigurálva van]". Például: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". Ha egy táblázatos forrásból másol, és a táblanév helyett lekérdezést használ, a névminta a következő: [table name].[format].[compression if configured]. Például: "MyTable.csv". |
No |
| modifiedDatetimeStart | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő modifiedDatetimeStart és kisebb modifiedDatetimeEnd. Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással van az adatáthelyezés általános teljesítményére, amikor nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok lehetnek NULL, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Amikor a modifiedDatetimeStart értéke egy adott időpont, de modifiedDatetimeEnd értéke NULL, akkor a program kiválasztja azokat a fájlokat, amelyek utolsó módosítási dátuma nagyobb vagy egyenlő az adott időponttal. Ha modifiedDatetimeEnd dátum/idő érték van megadva, a modifiedDatetimeStartNULLprogram kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb, mint a datetime érték. |
No |
| modifiedDatetimeEnd | A fájlok szűrése a legutóbb módosított attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő modifiedDatetimeStart és kisebb modifiedDatetimeEnd. Az idő az UTC időzónára "2018-12-01T05:00:00Z" formátumban lesz alkalmazva. Vegye figyelembe, hogy a beállítás engedélyezése hatással van az adatáthelyezés általános teljesítményére, amikor nagy mennyiségű fájlt szeretne szűrni. A tulajdonságok lehetnek NULL, ami azt jelenti, hogy az adathalmazra nem alkalmaz fájlattribútum-szűrőt. Amikor a modifiedDatetimeStart értéke egy adott időpont, de modifiedDatetimeEnd értéke NULL, akkor a program kiválasztja azokat a fájlokat, amelyek utolsó módosítási dátuma nagyobb vagy egyenlő az adott időponttal. Ha modifiedDatetimeEnd dátum/idő érték van megadva, a modifiedDatetimeStartNULLprogram kijelöli azokat a fájlokat, amelyek utolsó módosított attribútuma kisebb, mint a datetime érték. |
No |
| format | Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban. Ha adott formátumú fájlokat szeretne elemezni vagy létrehozni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat és ParquetFormat. Állítsa be a type tulajdonságot a format alatt az alábbi értékek egyikére. További információ: Szöveg,JSON formátum, Avro formátum, Orc formátum és Parquet formátum szakaszok. |
Nem (csak bináris másolási forgatókönyv esetén) |
| tömörítés | Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek. A támogatott típusok a GZip, a Deflate, a BZip2 és a ZipDeflate. A támogatott szintek optimálisak és leggyorsabbak. |
No |
Tip
Ha az összes blobot egy mappába szeretné másolni, csak a folderPath értéket adja meg.
Ha egy adott nevű blobot szeretne másolni, adja meg a mapparész folderPath elemét és a fájlnév fájlnevét .
A blobok egy részhalmazának mappa alatti másolásához adja meg a mappa útvonalát és a fájlnév elemet helyettesítő karakter szűrővel.
Example:
{
"name": "AzureBlobDataset",
"properties": {
"type": "AzureBlob",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"folderPath": "mycontainer/myfolder",
"fileName": "*",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
A másolási tevékenység örökölt forrásmodellje
| Property | Description | Required |
|---|---|---|
| típus | A type Másolási tevékenység forrásának tulajdonságát be kell állítani BlobSource. |
Yes |
| recursive | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha recursive be van állítva true , és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.Az engedélyezett értékek ( true alapértelmezett) és false. |
No |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | No |
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<Azure Blob input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "BlobSource",
"recursive": true
},
"sink": {
"type": "<sink type>"
}
}
}
]
Régi célmodell a másolási tevékenységhez
| Property | Description | Required |
|---|---|---|
| típus | A type másolási tevékenység fogadójának tulajdonságát a következőre BlobSinkkell állítani: . |
Yes |
| copyBehavior | Meghatározza a másolási viselkedést, ha a forrás fájlalapú adattárból származó fájlok. Az engedélyezett értékek a következők: - PreserveHierarchy (alapértelmezett): Megőrzi a fájlhierarchiát a célmappában. A forrásfájl forrásmappához viszonyított elérési útja megegyezik a célfájl célmappához viszonyított elérési útjával. - FlattenHierarchy: A forrásmappából származó összes fájl a célmappa első szintjén található. A célfájlok automatikusan létrehozott névvel rendelkeznek. - MergeFiles: A forrásmappából származó összes fájlt egyetlen fájlba egyesíti. Ha a fájl vagy a blob neve meg van adva, az egyesített fájlnév a megadott név. Ellenkező esetben ez egy automatikusan létrehozott fájlnév. |
No |
| maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | No |
Example:
"activities":[
{
"name": "CopyToBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Azure Blob output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "BlobSink",
"copyBehavior": "PreserveHierarchy"
}
}
}
]
Adatrögzítés módosítása
Az Azure Data Factory csak az Azure Blob Storage-ból tud új vagy módosított fájlokat lekérni, ha engedélyezi a **Változásadatok rögzítésének engedélyezése ** lehetőséget a leképezési adatfolyam-forrásátalakításban. Ezzel az összekötővel csak új vagy frissített fájlokat olvashat, és átalakításokat alkalmazhat, mielőtt az átalakított adatokat betöltené a választott céladatkészletekbe. Részletekért tekintse meg az Adatrögzítés módosítása című témakört.
Kapcsolódó tartalom
A másolási tevékenység által forrásként és fogadóként támogatott adattárak listáját a Támogatott adattárak című témakörben találja.