Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
VZTAHUJE SE NA:
Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje vše od přesunu dat až po datovou vědu, analýzy v reálném čase, podnikovou inteligenci a reportování. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak pomocí aktivity kopírování v kanálech Azure Data Factory a Azure Synapse kopírovat data z a do služby Azure Blob Storage. Popisuje také, jak pomocí aktivity Tok dat transformovat data ve službě Azure Blob Storage. Další informace najdete v úvodních článcích o službě Azure Data Factory a Azure Synapse Analytics .
Tip
Další informace o scénáři migrace datového jezera nebo datového skladu najdete v článku Migrace dat z datového jezera nebo datového skladu do Azure.
Podporované funkce
Tento konektor Azure Blob Storage je podporovaný pro následující funkce:
| Podporované funkce | IR | Spravovaný privátní koncový bod |
|---|---|---|
| Aktivita kopírování (zdroj/cíl) | (1) (2) | – Vyloučení účtu úložiště V1 |
| Mapování toku dat (zdroj/úložiště) | ① | – Vyloučení účtu úložiště V1 |
| Vyhledávací aktivita | (1) (2) | – Vyloučení účtu úložiště V1 |
| Aktivita GetMetadata | (1) (2) | – Vyloučení účtu úložiště V1 |
| Smazat aktivitu | (1) (2) | – Vyloučení účtu úložiště V1 |
(1) Azure Integration Runtime (2) Lokálně hostované Integration Runtime
Pro aktivitu kopírování podporuje tento konektor úložiště objektů Blob:
- Kopírování blobů mezi účty obecného úložiště Azure a úložišti pro horké/studené objekty.
- Kopírování objektů blob pomocí klíče účtu, sdíleného přístupového podpisu služby (SAS), privátního klíče služby nebo spravovaných identit pro ověřování prostředků Azure.
- Kopírování částí dat z blokových, přípojných nebo stránkových blobů a kopírování dat pouze do blokových blobů.
- Kopírování objektů blob tak, jak je, nebo parsování nebo generování objektů blob s podporovanými formáty souborů a komprimačními kodeky.
- Zachování metadat souboru během kopírování
Začínáme
K provedení aktivity kopírování pomocí datového kanálu můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby Azure Blob Storage pomocí uživatelského rozhraní
Pomocí následujících kroků vytvořte propojenou službu Azure Blob Storage v uživatelském rozhraní webu Azure Portal.
Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak vyberte Nový:
Vyhledejte objekt blob a vyberte konektor služby Azure Blob Storage.
Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.
Podrobnosti konfigurace konektoru
Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit kanálu Data Factory a Synapse specifických pro úložiště objektů blob.
Vlastnosti propojených služeb
Tento konektor blob storage podporuje následující typy ověřování. Podrobnosti najdete v odpovídajících částech.
- Anonymní ověřování
- Ověřování pomocí klíče účtu
- Ověřování pomocí sdíleného přístupového podpisu
- Ověřování principálu služby
- Ověřování spravované identity přiřazené systémem
- Ověřování spravované identity přiřazené uživatelem
Note
- Pokud chcete použít globální prostředí Azure Integration Runtime pro připojení k úložišti objektů blob pomocí možnosti Povolit důvěryhodným službám Microsoftu přístup k tomuto účtu úložiště povolenému v bráně firewall služby Azure Storage, musíte použít ověřování spravované identity. Další informace o nastavení brány firewall služby Azure Storage najdete v tématu Konfigurace bran firewall služby Azure Storage a virtuálních sítí.
- Pokud k načtení dat do Azure Synapse Analytics použijete příkaz PolyBase nebo COPY, pokud je vaše zdrojové nebo přípravné úložiště objektů blob nakonfigurované s koncovým bodem služby Azure Virtual Network, musíte použít ověřování spravované identity podle potřeby azure Synapse. Další požadavky na konfiguraci najdete v části Ověřování spravované identity .
Note
Aktivity Azure HDInsight a Azure Machine Learning podporují pouze ověřování, které používá klíče účtu služby Azure Blob Storage.
Anonymní ověřování
Pro ověřování klíčů účtu úložiště v kanálech Azure Data Factory nebo Synapse se podporují následující vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type musí být nastavená na AzureBlobStorage (navrhované) nebo AzureStorage (viz následující poznámky). |
Yes |
| containerUri | Zadejte URI kontejneru objektů blob Azure, který má povolen anonymní přístup ke čtení, ve formátu https://<AccountName>.blob.core.windows.net/<ContainerName> a Konfigurace anonymního veřejného přístupu ke čtení pro kontejnery a objekty blob |
Yes |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Example:
{
"name": "AzureBlobStorageAnonymous",
"properties": {
"annotations": [],
"type": "AzureBlobStorage",
"typeProperties": {
"containerUri": "https:// <accountname>.blob.core.windows.net/ <containername>",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklady uživatelského rozhraní:
Uživatelské rozhraní je popsané na následujícím obrázku. Tato ukázka jako zdroj použila otevřenou datovou sadu Azure.
Ověřování pomocí klíče účtu
Pro ověřování klíčů účtu úložiště v kanálech Azure Data Factory nebo Synapse se podporují následující vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type musí být nastavená na AzureBlobStorage (navrhované) nebo AzureStorage (viz následující poznámky). |
Yes |
| connectionString | Zadejte informace potřebné k připojení k úložišti pro vlastnost connectionString. Klíč účtu můžete také vložit do služby Azure Key Vault a konfiguraci vyjmout z připojovacího řetězce. Další informace najdete v následujících ukázkách a přihlašovacích údajích pro Store v článku o službě Azure Key Vault . |
Yes |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Note
Sekundární koncový bod služby Blob Service se nepodporuje, pokud používáte ověřování pomocí klíče účtu. Můžete použít jiné typy ověřování.
Note
Pokud používáte propojenou službu typu AzureStorage, je stále podporovaná tak, jak je. Doporučujeme ale použít nový AzureBlobStorage propojený typ služby.
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;AccountKey=<accountkey>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad: Uložení klíče účtu ve službě Azure Key Vault
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"connectionString": "DefaultEndpointsProtocol=https;AccountName=<accountname>;",
"accountKey": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování pomocí sdíleného přístupového podpisu
Sdílený přístupový podpis poskytuje delegovaný přístup k prostředkům ve vašem účtu úložiště. Sdílený přístupový podpis můžete použít k udělení omezených oprávnění klienta k objektům ve vašem účtu úložiště po určitou dobu.
Přístupové klíče účtu nemusíte sdílet. Sdílený přístupový podpis je identifikátor URI, který zahrnuje v parametrech dotazu všechny informace potřebné pro ověřený přístup k prostředku úložiště. Pro přístup k prostředkům úložiště pomocí sdíleného přístupového podpisu musí klient předat sdílený přístupový podpis pouze příslušnému konstruktoru nebo metodě.
Další informace o sdílených přístupových podpisech najdete v tématu Sdílené přístupové podpisy: Vysvětlení modelu sdíleného přístupového podpisu.
Note
- Služba teď podporuje sdílené přístupové podpisy služby i sdílené přístupové podpisy účtu. Další informace o sdílených přístupových podpisech najdete v tématu Udělení omezeného přístupu k prostředkům Azure Storage pomocí sdílených přístupových podpisů.
- V pozdějších konfiguracích datové sady je cesta ke složce absolutní cestou počínaje úrovní kontejneru. Musíte nakonfigurovat nastavení, které je zarovnané s cestou v identifikátoru URI SAS.
Pro použití ověřování pomocí sdíleného přístupového podpisu se podporují následující vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type musí být nastavena na AzureBlobStorage (doporučená) nebo AzureStorage (viz následující poznámka). |
Yes |
| sasUri | Zadejte identifikátor URI sdíleného přístupového podpisu k prostředkům úložiště, jako je například objekt blob nebo kontejner. Označte toto pole jako SecureString, aby bylo bezpečně uloženo. Token SAS můžete také vložit do služby Azure Key Vault, abyste mohli použít automatickou rotaci a odebrat část tokenu. Další informace najdete v následujících ukázkách a ukládání přihlašovacích údajů ve službě Azure Key Vault. |
Yes |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Note
Pokud používáte propojenou službu typu AzureStorage, je stále podporovaná tak, jak je. Doporučujeme ale použít nový AzureBlobStorage propojený typ služby.
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the Azure Storage resource e.g. https://<accountname>.blob.core.windows.net/?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Příklad: Uložení klíče účtu ve službě Azure Key Vault
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"sasUri": {
"type": "SecureString",
"value": "<SAS URI of the Azure Storage resource without token e.g. https://<accountname>.blob.core.windows.net/>"
},
"sasToken": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName with value of SAS token e.g. ?sv=<storage version>&st=<start time>&se=<expire time>&sr=<resource>&sp=<permissions>&sip=<ip range>&spr=<protocol>&sig=<signature>>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Při vytváření identifikátoru URI sdíleného přístupového podpisu zvažte následující body:
- Nastavte příslušná oprávnění ke čtení a zápisu u objektů na základě způsobu použití propojené služby (čtení, zápis, čtení a zápis).
- Nastavte čas vypršení platnosti odpovídajícím způsobem. Ujistěte se, že platnost přístupu k objektům úložiště nevyprší v aktivním období kanálu.
- Identifikátor URI by měl být vytvořen v příslušném kontejneru nebo blobovém úložišti podle potřeb. Sdílený přístupový odkaz URI na objekt blob umožňuje Azure Data Factory nebo Synapse pipeline přístup k tomuto konkrétnímu objektu blob. Identifikátor URI sdíleného přístupového podpisu do kontejneru úložiště objektů blob umožňuje službám Azure Data Factory nebo Synapse Pipeline iterovat přes objekty blob v daném kontejneru. Pokud chcete později poskytnout přístup k více nebo menším objektům nebo aktualizovat identifikátor URI sdíleného přístupového podpisu, nezapomeňte aktualizovat propojenou službu novým identifikátorem URI.
Ověřování servisního principála
Obecné informace o ověřování pomocí služebního zástupce pro Azure Storage nájdete v tématu Ověřování přístupu ke službě Azure Storage pomocí ID Microsoft Entra.
Pokud chcete použít ověřování pomocí služebního účtu, postupujte takto:
Zaregistrujte aplikaci na platformě Microsoft Identity Platform. Postup najdete v tématu Rychlý start: Registrace aplikace na platformě Microsoft Identity Platform. Poznamenejte si tyto hodnoty, které použijete k definování propojené služby:
- Identifikátor aplikace
- Klíč aplikace
- Identifikátor nájemce
Udělte služebnímu objektu odpovídající oprávnění ve službě Azure Blob Storage. Další informace o rolích naleznete v tématu Použití Azure Portalu k přiřazení role Azure pro přístup k datům z úložišť blobů a front.
- Jako zdroj udělte v Řízení přístupu (IAM) alespoň roli Čtenář dat objektů blob služby Storage.
- Jako jímku udělte v řízení přístupu (IAM) alespoň roli Přispěvatel dat objektů blob úložiště .
Pro propojenou službu Azure Blob Storage se podporují tyto vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu musí být nastavená na AzureBlobStorage. | Yes |
| serviceEndpoint | Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/. |
Yes |
| accountKind | Zadejte typ vašeho účtu úložiště. Povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (pro obecné účely v2), BlobStorage nebo BlockBlobStorage. Pokud v toku dat používáte propojenou službu Azure Blob, spravovaná identita nebo ověřování aplikačního objektu se nepodporuje, pokud je druh účtu prázdný nebo "Storage". Zadejte správný druh účtu, vyberte jinou metodu ověřování nebo upgradujte účet úložiště na obecný účel v2. |
No |
| servicePrincipalId | Zadejte ID klienta aplikace. | Yes |
| servicePrincipalCredentialType | Typ přihlašovacích údajů, který se má použít pro ověřování službového objektu. Povolené hodnoty jsou ServicePrincipalKey a ServicePrincipalCert. | Yes |
| servicePrincipalCredential | Pověření služby principal. Pokud jako typ přihlašovacích údajů použijete ServicePrincipalKey , zadejte klíč aplikace. Označte toto pole jako SecureString , abyste ho mohli bezpečně uložit, nebo odkazovat na tajný kód uložený ve službě Azure Key Vault. Pokud jako přihlašovací údaje použijete ServicePrincipalCert , odkazujte na certifikát ve službě Azure Key Vault a ujistěte se, že typ obsahu certifikátu je PKCS #12. |
Yes |
| klient | Zadejte informace o tenantovi (název domény nebo ID tenanta), pod kterým se vaše aplikace nachází. Získejte ho tak, že najedete myší na pravý horní roh portálu Azure. | Yes |
| azureCloudType | Pro ověřování servisním principálem zadejte typ prostředí cloudu Azure, ve kterém je zaregistrována vaše aplikace Microsoft Entra. Povolené hodnoty jsou AzurePublic, AzureChina, AzureUsGovernment a AzureGermany. Ve výchozím nastavení se používá cloudové prostředí Data Factory nebo pipeline Synapse. |
No |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Note
- Pokud váš účet objektu blob povolí měkké odstranění, ověření pomocí zástupce služby se v toku dat nepodporuje.
- Pokud přistupujete k úložišti objektů blob prostřednictvím privátního koncového bodu pomocí toku dat, uvědomte si, že při použití ověřování pomocí zástupce služby se tok dat připojuje ke koncovému bodu ADLS Gen2 místo koncového bodu úložiště blob. Ujistěte se, že ve své datové továrně nebo pracovním prostoru Synapse vytvoříte odpovídající privátní koncový bod, abyste povolili přístup.
Note
Ověřování prostřednictvím service principal je podporováno pouze propojenou službou typu "AzureBlobStorage", nikoli předchozí propojenou službou typu "AzureStorage".
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2",
"servicePrincipalId": "<service principal id>",
"servicePrincipalKey": {
"type": "SecureString",
"value": "<service principal key>"
},
"tenant": "<tenant info, e.g. microsoft.onmicrosoft.com>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování spravované identity přiřazené systémem
Datovou továrnu nebo kanál Synapse je možné přidružit ke spravované identitě přiřazené systémem pro prostředky Azure, což představuje tento prostředek pro ověřování v jiných službách Azure. Tuto systémem přiřazenou spravovanou identitu můžete použít přímo pro ověřování úložiště objektů blob, podobně jako při použití vlastního služebního objektu. Tento určený zdroj umožňuje přístup k datům a jejich přesun nebo kopírování do Blob úložiště nebo z něj. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu Spravované identity pro prostředky Azure.
Obecné informace o ověřování azure Storage najdete v tématu Ověřování přístupu ke službě Azure Storage pomocí Microsoft Entra ID. Pokud chcete používat spravované identity pro ověřování prostředků Azure, postupujte takto:
Získejte informace o spravované identitě přiřazené systémem zkopírováním hodnoty ID objektu, která byla generována spolu s vaší datovou továrnou nebo pracovním prostorem Synapse.
Udělte spravované identitě oprávnění ve službě Azure Blob Storage. Další informace o rolích naleznete v tématu Použití Azure Portalu k přiřazení role Azure pro přístup k datům z úložišť blobů a front.
- Jako zdroj udělte v Řízení přístupu (IAM) alespoň roli Čtenář dat objektů blob služby Storage.
- Jako jímku udělte v řízení přístupu (IAM) alespoň roli Přispěvatel dat objektů blob úložiště .
Pro propojenou službu Azure Blob Storage se podporují tyto vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu musí být nastavená na AzureBlobStorage. | Yes |
| serviceEndpoint | Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/. |
Yes |
| accountKind | Zadejte typ vašeho účtu úložiště. Povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (pro obecné účely v2), BlobStorage nebo BlockBlobStorage. Pokud v toku dat používáte propojenou službu Azure Blob, spravovaná identita nebo ověřování aplikačního objektu se nepodporuje, pokud je druh účtu prázdný nebo "Storage". Zadejte správný druh účtu, vyberte jinou metodu ověřování nebo upgradujte účet úložiště na obecný účel v2. |
No |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ověřování spravované identity přiřazené uživatelem
Datové továrně lze přiřadit jednu nebo více uživatelem přiřazených spravovaných identit. Tuto spravovanou identitu přiřazenou uživatelem můžete použít pro ověřování úložiště objektů blob, která umožňuje přístup k datům a kopírování dat z úložiště objektů blob nebo do úložiště objektů blob. Další informace o spravovaných identitách pro prostředky Azure najdete v tématu Spravované identity pro prostředky Azure.
Obecné informace o ověřování úložiště Azure najdete v tématu Ověřování přístupu ke službě Azure Storage pomocí ID Microsoft Entra. Pokud chcete použít ověřování spravované identity přiřazené uživatelem, postupujte takto:
Vytvořte jednu nebo více spravovaných identit přiřazených uživatelem a udělte oprávnění ve službě Azure Blob Storage. Další informace o rolích naleznete v tématu Použití Azure Portalu k přiřazení role Azure pro přístup k datům z úložišť blobů a front.
- Jako zdroj udělte v Řízení přístupu (IAM) alespoň roli Čtenář dat objektů blob služby Storage.
- Jako jímku udělte v řízení přístupu (IAM) alespoň roli Přispěvatel dat objektů blob úložiště .
Přiřaďte k datové továrně jednu nebo více spravovaných identit přiřazených uživatelem a vytvořte přihlašovací údaje pro každou spravovanou identitu přiřazenou uživatelem.
Pro propojenou službu Azure Blob Storage se podporují tyto vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu musí být nastavená na AzureBlobStorage. | Yes |
| serviceEndpoint | Zadejte koncový bod služby Azure Blob Storage se vzorem https://<accountName>.blob.core.windows.net/. |
Yes |
| accountKind | Zadejte typ vašeho účtu úložiště. Povolené hodnoty jsou: Storage (pro obecné účely v1), StorageV2 (pro obecné účely v2), BlobStorage nebo BlockBlobStorage. Pokud v toku dat používáte propojenou službu Azure Blob, nepodporuje se ověřování spravovanou identitou nebo pomocí principálu služby, pokud je typ účtu nastaven na prázdný nebo na ‚Storage‘. Zadejte správný druh účtu, vyberte jinou metodu ověřování nebo upgradujte účet úložiště na obecný účel v2. |
No |
| přihlašovací údaje | Jako objekt přihlašovacích údajů zadejte spravovanou identitu přiřazenou uživatelem. | Yes |
| connectVia | Pro připojení k úložišti dat má být použito prostředí Integration Runtime. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. | No |
Example:
{
"name": "AzureBlobStorageLinkedService",
"properties": {
"type": "AzureBlobStorage",
"typeProperties": {
"serviceEndpoint": "https://<accountName>.blob.core.windows.net/",
"accountKind": "StorageV2",
"credential": {
"referenceName": "credential1",
"type": "CredentialReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
Pokud k načtení dat z úložiště objektů blob (jako zdroje nebo přípravného) do Azure Synapse Analytics používáte příkaz PolyBase nebo COPY, nezapomeňte při použití ověřování spravované identity pro úložiště objektů blob také postupovat podle kroků 1 až 3 uvedených v těchto pokynech. Tyto kroky zaregistrují váš server pomocí Microsoft Entra ID a přiřadí k vašemu serveru roli Přispěvatel dat objektů blob služby Storage. Služba Data Factory zpracovává zbytek. Pokud nakonfigurujete službu Blob Storage s koncovým bodem virtuální sítě Azure, musíte mít také možnost Povolit důvěryhodným službám Microsoftu přístup k tomuto účtu úložiště zapnuté v nabídce nastavení Brány firewall a Virtuálních sítí účtu služby Azure Storage, jak to vyžaduje Azure Synapse.
Note
- Pokud váš účet blob povolí soft delete, ověřování spravované identity přiřazené systémem nebo uživatelem se v Toku dat nepodporuje.
- Pokud přistupujete k úložišti objektů blob prostřednictvím privátního koncového bodu pomocí toku dat, mějte na paměti, že se k koncovému bodu ADLS Gen2 místo koncového bodu objektu blob připojí ověření spravované identity přiřazené systémem nebo uživatelem. Ujistěte se, že v ADF vytvoříte odpovídající privátní koncový bod pro povolení přístupu.
Note
Ověřování spravované identity přiřazené systémem nebo uživatelem je podporováno pouze propojenou službou typu AzureBlobStorage, nikoli předchozí propojenou službou typu AzureStorage.
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady .
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Oddělovaný textový formát
- Formát aplikace Excel
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Azure Blob Storage pod nastavením location jsou podporovány následující vlastnosti v datové sadě založené na formátu:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu umístění v datové sadě musí být nastavená na AzureBlobStorageLocation. | Yes |
| kontejner | Blob kontejner. | Yes |
| folderPath | Cesta ke složce v daném kontejneru. Pokud chcete k filtrování složky použít zástupný znak, přeskočte toto nastavení a určete ho v nastavení zdroje aktivity. | No |
| fileName | Název souboru v daném kontejneru a cestě ke složce. Pokud chcete k filtrování souborů použít zástupný znak, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. | No |
Example:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností, které podporují zdroj a úložiště Blob.
Blob Storage jako typ zdroje
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
- Formát Avro
- Binární formát
- Oddělovaný textový formát
- Formát aplikace Excel
- Formát JSON
- Formát ORC
- Formát Parquet
- Formát XML
Služba Azure Blob Storage storeSettings v nastavení ve zdroji kopírování založeném na formátu podporuje následující vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost typu v části storeSettings musí být nastavena na AzureBlobStorageReadSettings. |
Yes |
| Vyhledejte soubory, které chcete zkopírovat: | ||
| MOŽNOST 1: Statická cesta |
Zkopírujte z daného kontejneru nebo cesty ke složce nebo souboru zadané v datové sadě. Pokud chcete zkopírovat všechny objekty blob z kontejneru nebo složky, dále zadejte wildcardFileName jako *. |
|
| MOŽNOST 2: Předpona blobu - předpona |
Předpona názvu blobu v určeném kontejneru, nakonfigurovaném v datové sadě pro filtrování zdrojových blobů. Objekty blob, jejichž názvy začínají na container_in_dataset/this_prefix, jsou vybrány. Využívá filtr na straně serveru pro úložiště objektů typu blob, který zajišťuje lepší výkon než filtr s použitím zástupných znaků.Když použijete předponu a zvolíte kopírování do jímky založené na souborech se zachováním hierarchie, poznamenejte si dílčí cestu za poslední předponou /. Máte například zdroj container/folder/subfolder/file.txta nakonfigurujte předponu jako folder/sub, pak zachovaná cesta k souboru je subfolder/file.txt. |
No |
| MOŽNOST 3: Zástupný znak – zástupný znakFolderPath |
Cesta ke složce se zástupnými znaky v daném kontejneru nakonfigurovaným v datové sadě pro filtrování zdrojových složek. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Použijte ^ k vyjádření únikového znaku, pokud má název složky zástupný symbol nebo tento únikový znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů. |
No |
| MOŽNOST 3: Zástupný znak - zástupnýSouborovýNázev |
Název souboru se zástupnými znaky v daném kontejneru a cestě ke složce (nebo cesta ke složce se zástupnými znaky) pro filtrování zdrojových souborů. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Použijte ^ k únikové sekvenci, pokud název vašeho souboru obsahuje zástupný znak nebo tento únikový znak. Další příklady najdete v příkladech filtru složek a souborů. |
Yes |
| MOŽNOST 4: seznam souborů - fileListPath |
Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k cestě nakonfigurované v datové sadě. Pokud používáte tuto možnost, nezadávejte v datové sadě název souboru. Další příklady najdete v příkladech seznamu souborů. |
No |
| Další nastavení: | ||
| recursive | Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že pokud je rekurze nastavena na true a cílové úložiště je založeno na souborech, prázdná složka nebo podsložka se v cílovém úložišti nezkopíruje ani nevytvoří. Povolené hodnoty jsou true (výchozí) a false. Tato vlastnost se nepoužije při konfiguraci fileListPath. |
No |
| deleteFilesAfterCompletion | Určuje, zda se binární soubory odstraní ze zdrojového úložiště po úspěšném přesunutí do cílového úložiště. Odstranění souboru je na jeden soubor. Proto když aktivita kopírování selže, uvidíte, že některé soubory se už zkopírovaly do cíle a odstranily ze zdroje, zatímco ostatní zůstávají ve zdrojovém úložišti. Tato vlastnost je platná pouze ve scénáři kopírování binárních souborů. Výchozí hodnota: false. |
No |
| modifiedDatetimeStart | Soubory se filtrují na základě atributu: naposledy změněno. Soubory jsou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd má hodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime.Tato vlastnost se nepoužije při konfiguraci fileListPath. |
No |
| modifiedDatetimeEnd | Stejná jako předchozí vlastnost. | No |
| enablePartitionDiscovery | U souborů, které jsou rozdělené na oddíly, určete, zda se mají analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Povolené hodnoty jsou false (výchozí) a true. |
No |
| partitionRootPath | Pokud je povoleno zjišťování oddílů, zadejte absolutní kořenovou cestu k čtení složek v oddílech jako datových sloupců. Pokud to není zadáno, ve výchozím nastavení – Při použití cesty k souboru v datové sadě nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta nakonfigurovaná v datové sadě. – Když používáte filtr složky se zástupnými znaky, kořenová cesta svazku je podcesta před prvním zástupným znakem. – Při použití předpony je kořenová cesta oddílu část cesty před posledním „/“. Předpokládejme například, že cestu v datové sadě nakonfigurujete jako "root/folder/year=2020/month=08/day=27": – Pokud zadáte kořenovou cestu oddílu jako "root/folder/year=2020", aktivita kopírování vygeneruje dva další sloupce month a day s hodnotou 08 a 27 kromě sloupců uvnitř souborů.– Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný sloupec navíc. |
No |
| maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Note
V případě textového formátu Parquet/delimited je typ BlobSource pro zdroj aktivity kopírování uvedený v další části stále podporovaný, protože se jedná o zpětnou kompatibilitu. Doporučujeme použít nový model, dokud se uživatelské rozhraní pro vytváření nepřepne na generování těchto nových typů.
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "AzureBlobStorageReadSettings",
"recursive": true,
"wildcardFolderPath": "myfolder*A",
"wildcardFileName": "*.csv"
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Note
Kontejner $logs , který se automaticky vytvoří, když je pro účet úložiště povolená analýza úložiště, se při provádění operace výpisu kontejneru prostřednictvím uživatelského rozhraní nezobrazí. Cesta k souboru musí být přímo zadána pro datový kanál nebo Synapse, aby bylo možné využívat soubory z kontejneru $logs.
Blob Storage jako typ jímky
Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.
Služba Azure Blob Storage storeSettings v nastavení v jímce kopírování na základě formátu podporuje následující vlastnosti:
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type pod storeSettings položkou musí být nastavena na AzureBlobStorageWriteSettingshodnotu . |
Yes |
| copyBehavior | Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. Povolené hodnoty jsou: - PreserveHierarchy (výchozí):: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru s cílovou složkou. - FlattenHierarchy: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy. - MergeFiles: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru nebo objektu blob, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru. |
No |
| blockSizeInMB | Zadejte velikost bloku v megabajtech, která se používá k zápisu dat do blokových blobů. Přečtěte si další informace o blokových blobových objektech. Povolená hodnota je mezi 4 MB a 100 MB. Ve výchozím nastavení služba automaticky určuje velikost bloku na základě typu a dat zdrojového úložiště. Pro nebinární kopírování do úložiště objektů blob je výchozí velikost bloku 100 MB, aby se vešla do (maximálně) 4,95 TB dat. Nemusí být optimální, pokud vaše data nejsou velká, zejména pokud používáte místní prostředí Integration Runtime s nízkými síťovými připojeními, které vedou k vypršení časového limitu operace nebo problémům s výkonem. Můžete explicitně zadat velikost bloku a zároveň zajistit, aby blockSizeInMB*50000 byla dostatečně velká pro ukládání dat. Jinak se spuštění aktivity kopírování nezdaří. |
No |
| maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
| metadata | Při kopírování do jímky nastavte vlastní metadata. Každý objekt pod metadata polem představuje další sloupec. Definuje name název klíče metadat a value označuje hodnotu dat tohoto klíče. Pokud je použita funkce zachování atributů, zadaná metadata se sjednotí a/nebo přepíší metadaty zdrojového souboru.Povolené datové hodnoty jsou: - $$LASTMODIFIED: Rezervovaná proměnná označuje, že se má uložit čas poslední změny zdrojových souborů. Platí pouze pro souborový zdroj s binárním formátem.-Výraz - Statická hodnota |
No |
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Parquet output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "ParquetSink",
"storeSettings":{
"type": "AzureBlobStorageWriteSettings",
"copyBehavior": "PreserveHierarchy",
"metadata": [
{
"name": "testKey1",
"value": "value1"
},
{
"name": "testKey2",
"value": "value2"
},
{
"name": "lastModifiedKey",
"value": "$$LASTMODIFIED"
}
]
}
}
}
}
]
Příklady filtrů složek a souborů
Tato část popisuje výsledné chování cesty ke složce a názvu souboru pomocí filtrů zástupných znaků.
| folderPath | fileName | recursive | Struktura zdrojové složky a výsledek filtru (soubory označené tučně jsou načteny) |
|---|---|---|---|
container/Folder* |
(prázdné, použijte výchozí) | false | kontejner FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
(prázdné, použijte výchozí) | true | kontejner FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
*.csv |
false | kontejner FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
container/Folder* |
*.csv |
true | kontejner FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv AnotherFolderB File6.csv |
Příklady seznamu souborů
Tato část popisuje výsledné chování při používání cesty k seznamu souborů ve zdroji aktivity Copy.
Předpokládejme, že máte následující strukturu zdrojové složky a chcete zkopírovat soubory tučně:
| Ukázková zdrojová struktura | Obsah souboru FileListToCopy.txt | Configuration |
|---|---|---|
| kontejner FolderA File1.csv File2.json Subfolder1 File3.csv File4.json File5.csv Metadata FileListToCopy.txt |
File1.csv Subfolder1/File3.csv Subfolder1/File5.csv |
V datové sadě: -Kontejner: container- Cesta ke složce: FolderAVe zdroji aktivity kopírování: - Cesta k seznamu souborů: container/Metadata/FileListToCopy.txt Cesta k seznamu souborů odkazuje na textový soubor ve stejném úložišti dat, které obsahuje seznam souborů, které chcete zkopírovat. Zahrnuje jeden soubor na řádek s relativní cestou k cestě nakonfigurované v datové sadě. |
Příklady rekurzivního a copyBehavioru
Tato část popisuje výsledné chování operace kopírování pro různé kombinace rekurzivních a copyBehavior hodnot.
| recursive | copyBehavior | Struktura zdrojových složek | Výsledný cíl |
|---|---|---|---|
| true | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří se stejnou strukturou jako zdroj: Folder1 File1 File2 Subfolder1 File3 File4 File5 |
| true | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří s následující strukturou: Folder1 automaticky vygenerovaný název souboru 1 automaticky vygenerovaný název souboru 2 automaticky vygenerovaný název souboru 3 automaticky vygenerovaný název souboru 4 automaticky vygenerovaný název souboru 5 |
| true | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří s následující strukturou: Folder1 File1 + File2 + File3 + File4 + File5 obsah jsou sloučeny do jednoho souboru s automaticky vygenerovaným názvem souboru. |
| false | preserveHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří s následující strukturou: Folder1 File1 File2 Podsložka1 obsahující soubory File3, File4 a File5 se nezachytí. |
| false | flattenHierarchy | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří s následující strukturou: Folder1 automaticky vygenerovaný název souboru 1 automaticky vygenerovaný název souboru 2 Podsložka1 obsahující soubory File3, File4 a File5 se nezachytí. |
| false | mergeFiles | Folder1 File1 File2 Subfolder1 File3 File4 File5 |
Cílová složka Folder1 se vytvoří s následující strukturou: Folder1 Obsah File1 + File2 se sloučí do jednoho souboru s automaticky vygenerovaným názvem souboru. automaticky vygenerovaný název souboru 1 Podsložka1 obsahující soubory File3, File4 a File5 se nezachytí. |
Zachování metadat během kopírování
Při kopírování souborů z AmazonU S3, Azure Blob Storage nebo Azure Data Lake Storage Gen2 do Azure Data Lake Storage Gen2 nebo Azure Blob Storage se můžete rozhodnout zachovat metadata souborů spolu s daty. Další informace najdete v možnosti Zachovat metadata.
Mapování vlastností toku dat
Při transformaci dat v mapování toků dat můžete číst a zapisovat soubory ze služby Azure Blob Storage v následujících formátech:
Nastavení specifické pro formátování se nachází v dokumentaci pro tento formát. Další informace najdete v tématu Transformace zdroje v mapování toku dat a transformace jímky v mapování toku dat.
Transformace zdroje
Ve zdrojové transformaci můžete číst z kontejneru, složky nebo jednotlivého souboru ve službě Azure Blob Storage. Ke správě způsobu čtení souborů použijte kartu Možnosti zdroje.
Cesty se zástupnými znaky: Použití vzoru se zástupným znakem dává službě pokyn, aby prošel jednotlivými odpovídajícími složkami a soubory v jedné transformaci zdroje. Jedná se o efektivní způsob, jak zpracovat více souborů v rámci jednoho toku. Přidejte několik vzorů se zástupnými znaky pomocí znaménka plus, které se zobrazí, když přesunete kurzor myši nad existující vzor se zástupnými znaky.
Ve zdrojovém kontejneru zvolte řadu souborů, které odpovídají vzoru. V datové sadě je možné zadat pouze kontejner. Vaše cesta se zástupnými znaky musí tedy také zahrnovat cestu ke složce od kořenového adresáře.
Příklady zástupných znaků:
*Představuje libovolnou sadu znaků.**Představuje rekurzivní vnoření adresářů.?Nahradí jeden znak.[]Odpovídá jednomu nebo více znakům v hranatých závorkách./data/sales/**/*.csvZíská všechny .csv soubory v části /data/sales./data/sales/20??/**/Získá všechny soubory ve 20. století./data/sales/*/*/*.csvStáhne .csv soubory ze dvou úrovní pod složkou /data/sales./data/sales/2004/*/12/[XY]1?.csvZíská všechny .csv soubory z prosince 2004, které začínají dvouciferným číslem následovaným písmenem X nebo Y.
Kořenová cesta oddílu: Pokud máte ve zdroji souborů oddílované složky s formátem key=value (například year=2019), můžete přiřadit nejvyšší úroveň stromu složek oddílu k názvu sloupce ve vašem datovém toku.
Nejprve nastavte zástupný znak tak, aby zahrnoval všechny cesty, které jsou rozdělené složky a soubory typu list, které chcete přečíst.
Pomocí nastavení kořenová cesta oddílu určete, jaká je nejvyšší úroveň struktury složek. Když si zobrazíte obsah dat prostřednictvím náhledu dat, uvidíte, že služba přidá vyřešené oddíly nalezené v každé z úrovní složek.
Seznam souborů: Toto je sada souborů. Vytvořte textový soubor, který obsahuje seznam souborů relativní cesty ke zpracování. Odkazujte na tento textový soubor.
Sloupec pro uložení názvu souboru: Uložte název zdrojového souboru do sloupce ve vašich datech. Sem zadejte nový název sloupce, do které se uloží řetězec názvu souboru.
Po dokončení: Po spuštění toku dat můžete s zdrojovým souborem dělat nic, odstranit zdrojový soubor nebo ho přesunout. Cesty pro přesunutí jsou relativní.
Chcete-li přesunout zdrojové soubory do jiného umístění po zpracování, vyberte nejprve možnost Přesunout pro operaci se souborem. Pak nastavte adresář "from". Pokud pro svou cestu nepoužíváte žádné zástupné znaky, bude nastavení „from“ stejné jako vaše zdrojová složka.
Pokud máte zdrojovou cestu se zástupným znakem, syntaxe je následující:
/data/sales/20??/**/*.csv
Můžete zadat "from" jako:
/data/sales
A můžete zadat "komu" jako:
/backup/priorSales
V tomto případě se všechny soubory, které pocházely z /data/sales, přesunou do /backup/priorSales.
Note
Operace se soubory se spouštějí pouze při spuštění toku dat z běhu kanálu (běh ladění kanálu nebo prováděcí běh), který používá aktivitu Spustit tok dat v kanálu. Operace se soubory se nespouštějí v režimu ladění toku dat.
Filtrovat podle poslední změny: Soubory, které se mají zpracovat, můžete filtrovat zadáním rozsahu dat, ve kterém byly naposledy změněny. Všechna data a časy jsou ve standardu UTC.
Povolení zachytávání dat změn: Pokud ano, získáte nové nebo změněné soubory jenom z posledního spuštění. Počáteční načtení úplných dat snímků vždy proběhne při prvním spuštění, a poté se při dalších spuštěních zachytí pouze nové nebo změněné soubory.
Vlastnosti jímky
V transformaci jímky můžete zapisovat do kontejneru nebo složky ve službě Azure Blob Storage. Pomocí karty Nastavení můžete spravovat způsob zápisu souborů.
Vymažte složku: Určuje, zda se cílová složka vymaže před zápisem dat.
Možnost názvu souboru: Určuje, jak jsou cílové soubory pojmenovány v cílové složce. Možnosti názvu souboru jsou:
- Výchozí: Povolit Sparku pojmenování souborů na základě výchozích hodnot PART.
-
Vzor: Zadejte vzor, který očísluje vaše výstupní soubory podle části. Například
loans[n].csvvytvoříloans1.csv,loans2.csva tak dále. - Na oddíl: Zadejte pro každý oddíl jeden název souboru.
- Jako data ve sloupci: Nastavte výstupní soubor na hodnotu sloupce. Cesta je relativní vzhledem ke kontejneru datové sady, nikoli cílové složce. Pokud máte v datové sadě cestu ke složce, tato cesta se přepíše.
- Výstup do jednoho souboru: Zkombinujte rozdělené výstupní soubory do jednoho pojmenovaného souboru. Cesta je relativní vzhledem ke složce datové sady. Operace sloučení může selhat na základě velikosti uzlu. Tuto možnost nedoporučujeme pro velké datové sady.
Citovat vše: Určuje, zda se mají všechny hodnoty vložit do uvozovek.
Vlastnosti aktivity vyhledávání
Podrobnosti o vlastnostech najdete v Vyhledávací aktivita.
Vlastnosti aktivity GetMetadata
Podrobnosti o vlastnostech najdete v aktivitě GetMetadata.
Odstranění vlastností aktivity
Pokud se chcete dozvědět podrobnosti o vlastnostech, podívejte se na Delete activity.
Zastaralé modely
Note
Následující modely jsou stále podporovány, stejně jako v případě zpětné kompatibility. Doporučujeme použít nový model uvedený dříve. Uživatelské rozhraní pro vytváření obsahu se přepnulo na generování nového modelu.
Starší model datové sady
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type datové sady musí být nastavena na AzureBlobhodnotu . |
Yes |
| folderPath | Cesta ke kontejneru a složce v úložišti blobového úložiště Pro cestu s výjimkou názvu kontejneru se podporuje filtr zástupných znaků. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Použijte ^ pro escape, pokud název vaší složky obsahuje zástupný znak nebo tento escape znak uvnitř. Příkladem je: myblobcontainer/myblobfolder/. Další příklady najdete v příkladech filtru složek a souborů. |
Ano pro aktivitu kopírování nebo vyhledávání, ne pro aktivitu GetMetadata |
| fileName | Filtr názvů nebo zástupných znaků pro bloky blobů pod zadanou folderPath hodnotou. Pokud pro tuto vlastnost nezadáte hodnotu, datová sada odkazuje na všechny objekty blob ve složce. Pro filtr jsou povolené zástupné znaky: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku).– Příklad 1: "fileName": "*.csv"– Příklad 2: "fileName": "???20180427.txt"Použijte ^ k únikové sekvenci, pokud název vašeho souboru obsahuje zástupný znak nebo tento únikový znak.Pokud fileName není zadána pro výstupní datovou sadu a preserveHierarchy není zadána v jímce aktivity, aktivita kopírování automaticky vygeneruje název objektu blob s následujícím vzorem: Data.[ GUID ID spuštění aktivity]. [GUID pokud FlattenHierarchy]. [formát, pokud je nakonfigurovaný]. [komprese, pokud je nakonfigurovaná]". Příklad: "Data.0a405f8a-93ff-4c6f-b3be-f69616f1df7a.txt.gz". Pokud kopírujete z tabulkového zdroje pomocí názvu tabulky místo dotazu, vzor názvů je [table name].[format].[compression if configured]. Příklad: "MyTable.csv". |
No |
| modifiedDatetimeStart | Soubory se filtrují na základě atributu: naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Mějte na paměti, že povolení tohoto nastavení má vliv na celkový výkon přesunu dat, když chcete filtrovat obrovské objemy souborů. Vlastnosti mohou být NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd je NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart je NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime. |
No |
| modifiedDatetimeEnd | Soubory se filtrují na základě atributu: naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z". Mějte na paměti, že povolení tohoto nastavení má vliv na celkový výkon přesunu dat, když chcete filtrovat obrovské objemy souborů. Vlastnosti mohou být NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEnd je NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart je NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime. |
No |
| format | Pokud chcete kopírovat soubory tak, jak je to mezi úložišti založenými na souborech (binární kopie), přeskočte oddíl formátu v definicích vstupní i výstupní datové sady. Pokud chcete analyzovat nebo generovat soubory s určitým formátem, podporují se následující typy formátů souborů: TextFormat, JsonFormat, AvroFormat, OrcFormat a ParquetFormat. Nastavte vlastnost typu ve formátu na jednu z těchto hodnot. Další informace najdete v částech Formát textu, Formát JSON, Formát Avro, Formát Orc a Parquet . |
Ne (pouze pro scénář binárního kopírování) |
| komprese | Zadejte typ a úroveň komprese dat. Další informace naleznete v tématu Podporované formáty souborů a komprimační kodeky. Podporované typy jsou GZip, Deflate, BZip2 a ZipDeflate. Podporované úrovně jsou Optimální a Nejrychlejší. |
No |
Tip
Pokud chcete zkopírovat všechny objekty blob ve složce, zadejte pouze folderPath .
Pokud chcete zkopírovat jeden objekt blob s daným názvem, zadejte cestu ke složce pro část složky a název souboru .
Pokud chcete zkopírovat podmnožinu objektů blob ve složce, zadejte folderPath pro část složky a fileName pomocí filtru se zástupným znakem.
Example:
{
"name": "AzureBlobDataset",
"properties": {
"type": "AzureBlob",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"folderPath": "mycontainer/myfolder",
"fileName": "*",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Starší zdrojový model aktivity kopírování
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type zdroje kopírovací aktivity musí být nastavena na BlobSource. |
Yes |
| recursive | Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Pokud je recursive nastaveno na true a cílové úložiště je založené na souborech, prázdná složka nebo podsložka se v cíli nevytvoří ani nezkopíruje.Povolené hodnoty jsou true (výchozí) a false. |
No |
| maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Example:
"activities":[
{
"name": "CopyFromBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<Azure Blob input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "BlobSource",
"recursive": true
},
"sink": {
"type": "<sink type>"
}
}
}
]
Starší model jímky pro aktivitu kopírování
| Property | Description | Required |
|---|---|---|
| typ | Vlastnost type cílového objektu aktivity kopírování musí být nastavena na BlobSink. |
Yes |
| copyBehavior | Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. Povolené hodnoty jsou: - PreserveHierarchy (výchozí):: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce. - FlattenHierarchy: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy. - MergeFiles: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru nebo objektu blob, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru. |
No |
| maxConcurrentConnections | Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. | No |
Example:
"activities":[
{
"name": "CopyToBlob",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Azure Blob output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "BlobSink",
"copyBehavior": "PreserveHierarchy"
}
}
}
]
Změna zachytávání dat
Azure Data Factory může získat nové nebo změněné soubory pouze ze služby Azure Blob Storage povolením **Povolit zachytávání změn** v transformaci zdroje mapovacího datového toku. Pomocí této možnosti konektoru můžete číst pouze nové nebo aktualizované soubory a použít transformace před načtením transformovaných dat do cílových datových sad podle vašeho výběru. Podrobnosti najdete v tématu Change Data Capture .
Související obsah
Seznam úložišť dat, která aktivita Copy podporuje jako zdroje a jímky, najdete v tématu Podporované úložiště dat.