Sdílet prostřednictvím


Kopírování a transformace dat ve službě Amazon Simple Storage pomocí Azure Data Factory nebo Azure Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje, jak pomocí aktivity kopírování kopírovat data ze služby Amazon Simple Storage Service (Amazon S3) a pomocí Tok dat transformovat data v Amazon S3. Další informace najdete v úvodních článcích pro Azure Data Factory a Synapse Analytics.

Tip

Další informace o scénáři migrace dat z AmazonU S3 do Azure Storage najdete v tématu Migrace dat z AmazonU S3 do Azure Storage.

Podporované funkce

Tento konektor Amazon S3 je podporovaný pro následující funkce:

Podporované funkce IR
aktivita Copy (zdroj/-) (1) (2)
Mapování toku dat (zdroj/jímka) (1)
Aktivita Lookup (1) (2)
Aktivita GetMetadata (1) (2)
Aktivita odstranění (1) (2)

(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime

Konkrétně tento konektor Amazon S3 podporuje kopírování souborů tak, jak je nebo parsuje soubory s podporovanými formáty souborů a komprimačními kodeky. Během kopírování můžete také zachovat metadata souboru. Konektor používá k ověřování požadavků na S3 podpis AWS verze 4 .

Tip

Pokud chcete kopírovat data z libovolného poskytovatele úložiště kompatibilního s S3, přečtěte si téma Amazon S3 Compatible Storage.

Požadována oprávnění

Pokud chcete kopírovat data z AmazonU S3, ujistěte se, že máte udělená následující oprávnění pro operace objektů Amazon S3: s3:GetObject a s3:GetObjectVersion.

Pokud k vytváření používáte uživatelské rozhraní služby Data Factory, vyžadují se další s3:ListAllMyBuckets a s3:ListBucket/s3:GetBucketLocation oprávnění pro operace, jako je testování připojení k propojené službě a procházení z kořenového adresáře. Pokud tato oprávnění nechcete udělit, můžete v uživatelském rozhraní zvolit možnost Test připojení k cestě k souboru nebo Procházet ze zadané cesty.

Úplný seznam oprávnění Amazon S3 najdete v tématu Určení oprávnění v zásadách na webu AWS.

Začínáme

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Vytvoření propojené služby Amazon Simple Storage Service (S3) pomocí uživatelského rozhraní

Pomocí následujícího postupu vytvořte propojenou službu Amazon S3 v uživatelském rozhraní webu Azure Portal.

  1. Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:

  2. Vyhledejte Amazon a vyberte konektor Amazon S3.

    Snímek obrazovky s konektorem Amazon S3

  3. Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.

    Snímek obrazovky s konfigurací propojené služby Amazon S3

Podrobnosti konfigurace konektoru

Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro Amazon S3.

Vlastnosti propojené služby

Pro propojenou službu Amazon S3 jsou podporovány následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu musí být nastavena na AmazonS3. Ano
authenticationType Zadejte typ ověřování, který se používá pro připojení k Amazon S3. Pro účet IAM (Identity and Access Management) AWS můžete použít přístupové klíče nebo dočasné přihlašovací údaje zabezpečení.
Povolené hodnoty jsou: AccessKey (výchozí) a TemporarySecurityCredentials.
No
accessKeyId ID tajného přístupového klíče. Ano
secretAccessKey Samotný tajný přístupový klíč. Označte toto pole jako securestring , abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault. Ano
sessionToken Platí pro použití dočasného ověřování přihlašovacích údajů zabezpečení. Zjistěte, jak požádat o dočasné přihlašovací údaje zabezpečení z AWS.
Poznámka: Platnost dočasných přihlašovacích údajů AWS vyprší od 15 minut do 36 hodin na základě nastavení. Ujistěte se, že jsou vaše přihlašovací údaje platné při provádění aktivit, zejména pro zprovozněnou úlohu – můžete je například pravidelně aktualizovat a ukládat je ve službě Azure Key Vault.
Označte toto pole jako securestring , abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault.
No
serviceUrl Zadejte vlastní koncový bod https://<service url>S3 .
Změňte ho jenom v případě, že chcete vyzkoušet jiný koncový bod služby nebo chcete přepnout mezi https a http.
No
connectVia Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Můžete použít prostředí Azure Integration Runtime nebo místní prostředí Integration Runtime (pokud je vaše úložiště dat v privátní síti). Pokud tato vlastnost není zadaná, služba používá výchozí prostředí Azure Integration Runtime. No

Příklad: Použití ověřování pomocí přístupového klíče

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Příklad: Použití dočasného ověřování přihlašovacích údajů zabezpečení

{
    "name": "AmazonS3LinkedService",
    "properties": {
        "type": "AmazonS3",
        "typeProperties": {
            "authenticationType": "TemporarySecurityCredentials",
            "accessKeyId": "<access key id>",
            "secretAccessKey": {
                "type": "SecureString",
                "value": "<secret access key>"
            },
            "sessionToken": {
                "type": "SecureString",
                "value": "<session token>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady .

Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

V nastavení v datové sadě založené na formátu jsou podporovány následující vlastnosti pro Amazon S3 location :

Vlastnost Popis Povinní účastníci
type Vlastnost location typu v datové sadě musí být nastavena na AmazonS3Location. Ano
bucketName Název kontejneru S3. Ano
folderPath Cesta ke složce v daném kontejneru. Pokud chcete k filtrování složky použít zástupný znak, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. No
fileName Název souboru v daném kontejneru a cestě ke složce. Pokud chcete k filtrování souborů použít zástupný znak, přeskočte toto nastavení a zadejte ho v nastavení zdroje aktivity. No
version Verze objektu S3, pokud je povolena správa verzí S3. Pokud není zadaný, načte se nejnovější verze. No

Příklad:

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AmazonS3Location",
                "bucketName": "bucketname",
                "folderPath": "folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Vlastnosti aktivity kopírování

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností, které zdroj Amazon S3 podporuje.

Amazon S3 jako typ zdroje

Azure Data Factory podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

V nastaveních ve zdroji kopírování založeném na formátu jsou podporovány následující vlastnosti pro Amazon S3 storeSettings :

Vlastnost Popis Povinní účastníci
type Vlastnost typu v části storeSettings musí být nastavena na AmazonS3ReadSettings. Ano
Vyhledejte soubory, které chcete zkopírovat:
MOŽNOST 1: Statická cesta
Zkopírujte z daného kontejneru nebo cesty ke složce nebo souboru zadané v datové sadě. Pokud chcete zkopírovat všechny soubory z kontejneru nebo složky, dále zadejte wildcardFileName jako *.
MOŽNOST 2: Předpona S3
-předpona
Předpona názvu klíče S3 v daném kontejneru nakonfigurovaného v datové sadě pro filtrování zdrojových souborů S3. Klíče S3, jejichž názvy začínají, bucket_in_dataset/this_prefix jsou vybrány. Využívá filtr na straně služby S3, který poskytuje lepší výkon než filtr se zástupnými cardy.

Pokud použijete předponu a zvolíte kopírování do jímky založené na souborech se zachováním hierarchie, poznamenejte si dílčí cestu za poslední předponou /. Máte například zdroj bucket/folder/subfolder/file.txta nakonfigurujte předponu jako folder/sub, pak zachovaná cesta k souboru je subfolder/file.txt.
No
MOŽNOST 3: Zástupný znak
– zástupný znakFolderPath
Cesta ke složce se zástupnými znaky v daném kontejneru nakonfigurovaným v datové sadě pro filtrování zdrojových složek.
Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Slouží ^ k řídicímu znaku, pokud má název složky zástupný znak nebo tento řídicí znak uvnitř.
Další příklady najdete v příkladech filtru složek a souborů.
No
MOŽNOST 3: Zástupný znak
- wildcardFileName
Název souboru se zástupnými znaky v daném kontejneru a cestě ke složce (nebo cestu ke složce se zástupnými znaky) pro filtrování zdrojových souborů.
Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Slouží ^ k řídicímu znaku, pokud má název souboru zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů.
Ano
MOŽNOST 4: seznam souborů
- fileListPath
Označuje, že chcete zkopírovat danou sadu souborů. Přejděte na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k cestě nakonfigurované v datové sadě.
Pokud používáte tuto možnost, nezadávejte v datové sadě název souboru. Další příklady najdete v příkladech seznamu souborů.
No
Další nastavení:
rekurzivní Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že pokud je rekurzivní nastavena na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka se v jímce nezkopíruje ani nevytvoří.
Povolené hodnoty jsou true (výchozí) a false.
Tato vlastnost se nepoužije při konfiguraci fileListPath.
No
deleteFilesAfterCompletion Určuje, zda se binární soubory odstraní ze zdrojového úložiště po úspěšném přesunutí do cílového úložiště. Odstranění souboru je na každém souboru, takže když aktivita kopírování selže, uvidíte, že se některé soubory už zkopírovaly do cíle a odstranily ze zdroje, zatímco ostatní zůstávají ve zdrojovém úložišti.
Tato vlastnost je platná pouze ve scénáři kopírování binárních souborů. Výchozí hodnota: false.
No
modifiedDatetimeStart Soubory se filtrují na základě atributu: naposledy změněno.
Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z".
Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEndhodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStarthodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime.
Tato vlastnost se nepoužije při konfiguraci fileListPath.
No
modifiedDatetimeEnd Platí to samé jako výše. No
enablePartitionDiscovery U souborů, které jsou rozdělené na oddíly, určete, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce.
Povolené hodnoty jsou false (výchozí) a true.
No
partitionRootPath Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce.

Pokud není ve výchozím nastavení zadán,
– Při použití cesty k souboru v datové sadě nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta nakonfigurovaná v datové sadě.
– Pokud používáte filtr složky se zástupnými otazemi, je kořenová cesta oddílu dílčí cestou před prvním zástupným znakem.
– Při použití předpony je kořenová cesta oddílu pod cestou před poslední "/".

Předpokládejme například, že cestu v datové sadě nakonfigurujete jako "root/folder/year=2020/month=08/day=27":
– Pokud zadáte kořenovou cestu oddílu jako "root/folder/year=2020", aktivita kopírování vygeneruje dva další sloupce month a day s hodnotou 08 a 27 kromě sloupců uvnitř souborů.
– Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný sloupec navíc.
No
maxConcurrentConnections Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. No

Příklad:

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "AmazonS3ReadSettings",
                    "recursive": true,
                    "wildcardFolderPath": "myfolder*A",
                    "wildcardFileName": "*.csv"
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Příklady filtrů složek a souborů

Tato část popisuje výsledné chování cesty ke složce a názvu souboru pomocí filtrů zástupných znaků.

kbelík key rekurzivní Struktura zdrojové složky a výsledek filtru (soubory se načítají tučně)
kbelík Folder*/* false (nepravda) kbelík
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kbelík Folder*/* true kbelík
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kbelík Folder*/*.csv false (nepravda) kbelík
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv
kbelík Folder*/*.csv true kbelík
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    AnotherFolderB
        File6.csv

Příklady seznamu souborů

Tato část popisuje výsledné chování použití cesty k seznamu souborů ve zdroji aktivita Copy.

Předpokládejme, že máte následující strukturu zdrojové složky a chcete zkopírovat soubory tučně:

Ukázková zdrojová struktura Obsah v FileListToCopy.txt Konfigurace
kbelík
    FolderA
        File1.csv
        File2.json
        Podsložka 1
            File3.csv
            File4.json
            File5.csv
    Metadata
        FileListToCopy.txt
File1.csv
Podsložka1/File3.csv
Podsložka1/File5.csv
V datové sadě:
-Kbelík: bucket
- Cesta ke složce: FolderA

Ve zdroji aktivita Copy:
- Cesta k seznamu souborů: bucket/Metadata/FileListToCopy.txt

Cesta k seznamu souborů odkazuje na textový soubor ve stejném úložišti dat, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek s relativní cestou k cestě nakonfigurované v datové sadě.

Zachování metadat během kopírování

Při kopírování souborů z AmazonU S3 do Azure Data Lake Storage Gen2 nebo Azure Blob Storage se můžete rozhodnout zachovat metadata souborů spolu s daty. Další informace najdete v možnosti Zachovat metadata.

Mapování vlastností toku dat

Při transformaci dat v mapování toků dat můžete číst soubory z AmazonU S3 v následujících formátech:

Nastavení specifické pro formátování se nachází v dokumentaci pro tento formát. Další informace najdete v tématu Transformace zdroje v mapování toku dat.

Transformace zdroje

Při transformaci zdroje můžete číst z kontejneru, složky nebo jednotlivého souboru v Amazon S3. Ke správě způsobu čtení souborů použijte kartu Možnosti zdroje.

Snímek obrazovky s možnostmi zdroje

Cesty se zástupnými znaky: Použití vzoru se zástupným znakem dává službě pokyn, aby prošel jednotlivými odpovídajícími složkami a soubory v jedné transformaci zdroje. Jedná se o efektivní způsob, jak zpracovat více souborů v rámci jednoho toku. Přidejte několik vzorů porovnávání se zástupnými znaménkami se znaménkem plus, které se zobrazí, když najedete myší na existující vzor se zástupnými znaménky.

Ve zdrojovém kontejneru zvolte řadu souborů, které odpovídají vzoru. V datové sadě je možné zadat pouze kontejner. Cesta se zástupným znakem proto musí obsahovat také cestu ke složce z kořenové složky.

Příklady zástupných znaků:

  • * Představuje libovolnou sadu znaků.

  • ** Představuje rekurzivní vnoření adresáře.

  • ? Nahradí jeden znak.

  • [] Odpovídá jednomu nebo více znakům v hranatých závorkách.

  • /data/sales/**/*.csv Získá všechny .csv soubory v části /data/sales.

  • /data/sales/20??/**/ Získá všechny soubory v 20.

  • /data/sales/*/*/*.csv Získá .csv soubory dvě úrovně pod /data/sales.

  • /data/sales/2004/*/12/[XY]1?.csv Získá všechny .csv soubory v prosinci 2004 počínaje X nebo Y předponou dvouciferné číslo.

Kořenová cesta oddílu: Pokud máte ve zdroji souborů rozdělené složky s formátem key=value (například year=2019), můžete přiřadit nejvyšší úroveň stromu složek oddílů k názvu sloupce ve streamu dat toku dat.

Nejprve nastavte zástupný znak tak, aby zahrnoval všechny cesty, které jsou rozdělené složky a soubory typu list, které chcete přečíst.

Snímek obrazovky s nastavením zdrojového souboru oddílu

Pomocí nastavení kořenová cesta oddílu definujte, jaká je nejvyšší úroveň struktury složek. Když zobrazíte obsah dat prostřednictvím náhledu dat, uvidíte, že služba přidá vyřešené oddíly nalezené v jednotlivých úrovních složek.

Snímek obrazovky s kořenovou cestou oddílu

Seznam souborů: Toto je sada souborů. Vytvořte textový soubor, který obsahuje seznam souborů relativní cesty ke zpracování. Přejděte na tento textový soubor.

Sloupec pro uložení názvu souboru: Uložte název zdrojového souboru do sloupce ve vašich datech. Sem zadejte nový název sloupce, do které se uloží řetězec názvu souboru.

Po dokončení: Po spuštění toku dat můžete s zdrojovým souborem dělat nic, odstranit zdrojový soubor nebo ho přesunout. Cesty pro přesunutí jsou relativní.

Chcete-li přesunout zdrojové soubory do jiného umístění po zpracování, vyberte nejprve možnost Přesunout pro operaci se souborem. Pak nastavte adresář "from". Pokud pro svou cestu nepoužíváte žádné zástupné cardy, bude nastavení "from" stejné jako vaše zdrojová složka.

Pokud máte zdrojovou cestu se zástupným znakem, syntaxe bude vypadat takto:

/data/sales/20??/**/*.csv

Můžete zadat "from" jako:

/data/sales

A můžete zadat "komu" jako:

/backup/priorSales

V tomto případě se všechny soubory, které byly zdrojové, /data/sales přesunou do /backup/priorSales.

Poznámka:

Operace se soubory se spouštějí pouze při spuštění toku dat ze spuštění kanálu (spuštění ladění kanálu nebo spuštění), který používá aktivitu Spustit Tok dat v kanálu. Operace se soubory se nespouštějí v režimu ladění Tok dat.

Filtrovat podle poslední změny: Můžete filtrovat soubory, které zpracováváte, zadáním rozsahu dat, ve kterém byly naposledy změněny. Všechna data a časy jsou ve standardu UTC.

Vlastnosti aktivity vyhledávání

Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.

Vlastnosti aktivity GetMetadata

Podrobnosti o vlastnostech najdete v aktivitě GetMetadata.

Odstranění vlastností aktivity

Pokud chcete zjistit podrobnosti o vlastnostech, zkontrolujte aktivitu odstranění.

Starší modely

Poznámka:

Následující modely jsou stále podporovány, stejně jako v případě zpětné kompatibility. Doporučujeme použít nový model uvedený dříve. Uživatelské rozhraní pro vytváření obsahu se přepnulo na generování nového modelu.

Starší model datové sady

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavena na AmazonS3Object. Ano
bucketName Název kontejneru S3. Filtr zástupných znaků není podporován. Ano pro aktivitu kopírování nebo vyhledávání, ne pro aktivitu GetMetadata
key Název nebo filtr zástupných znaků klíče objektu S3 v zadaném kontejneru. Platí pouze v případech, kdy není zadána vlastnost předpony .

Filtr zástupných znaků je podporovaný pro část složky i část názvu souboru. Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku).
– Příklad 1: "key": "rootfolder/subfolder/*.csv"
– Příklad 2: "key": "rootfolder/subfolder/???20180427.txt"
Další příklad najdete v příkladech filtrů složek a souborů. Slouží ^ k řídicímu znaku, pokud má vaše skutečná složka nebo název souboru zástupný znak nebo tento řídicí znak uvnitř.
No
předpona Předpona pro klíč objektu S3. Jsou vybrány objekty, jejichž klíče začínají touto předponou. Platí pouze v případech, kdy není zadaná vlastnost klíče . No
version Verze objektu S3, pokud je povolena správa verzí S3. Pokud není zadaná verze, načte se nejnovější verze. No
modifiedDatetimeStart Soubory se filtrují na základě atributu: naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z".

Mějte na paměti, že povolení tohoto nastavení ovlivní celkový výkon přesunu dat, když chcete filtrovat obrovské objemy souborů.

Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEndhodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStart má hodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime.
No
modifiedDatetimeEnd Soubory se filtrují na základě atributu: naposledy změněno. Soubory budou vybrány, pokud je jejich čas poslední změny větší nebo roven modifiedDatetimeStart a menší než modifiedDatetimeEnd. Čas se použije u časového pásma UTC ve formátu "2018-12-01T05:00:00Z".

Mějte na paměti, že povolení tohoto nastavení ovlivní celkový výkon přesunu dat, když chcete filtrovat obrovské objemy souborů.

Vlastnosti můžou mít hodnotu NULL, což znamená, že u datové sady se nepoužije žádný filtr atributů souboru. Pokud modifiedDatetimeStart má hodnotu datetime, ale modifiedDatetimeEndhodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud modifiedDatetimeEnd má hodnotu datetime, ale modifiedDatetimeStarthodnotu NULL, budou vybrány soubory, jejichž atribut poslední změny je menší než hodnota datetime.
No
format Pokud chcete kopírovat soubory tak, jak je to mezi úložišti založenými na souborech (binární kopie), přeskočte oddíl formátu v definicích vstupní i výstupní datové sady.

Pokud chcete analyzovat nebo generovat soubory s určitým formátem, podporují se následující typy formátů souborů: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. Nastavte vlastnost typu ve formátu na jednu z těchto hodnot. Další informace najdete v částech Formát textu, Formát JSON, Formát Avro, Formát Orc a Parquet .
Ne (pouze pro scénář binárního kopírování)
komprese Zadejte typ a úroveň komprese dat. Další informace naleznete v tématu Podporované formáty souborů a komprimační kodeky.
Podporované typy jsou GZip, Deflate, BZip2 a ZipDeflate.
Podporované úrovně jsou Optimální a Nejrychlejší.
No

Tip

Pokud chcete zkopírovat všechny soubory ve složce, zadejte bucketName pro kontejner a předponu pro část složky.

Pokud chcete zkopírovat jeden soubor s daným názvem, zadejte kontejnerName pro kontejner a klíč pro část složky a název souboru.

Pokud chcete zkopírovat podmnožinu souborů ve složce, zadejte bucketName pro kontejner a klíč pro část složky a filtr se zástupnými znaménky.

Příklad: Použití předpony

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3Object",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "prefix": "testFolder/test",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Příklad: Použití klíče a verze (volitelné)

{
    "name": "AmazonS3Dataset",
    "properties": {
        "type": "AmazonS3",
        "linkedServiceName": {
            "referenceName": "<Amazon S3 linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "bucketName": "testbucket",
            "key": "testFolder/testfile.csv.gz",
            "version": "XXXXXXXXXczm0CJajYkHf0_k6LhBmkcL",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Starší zdrojový model pro aktivita Copy

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivita Copy musí být nastavena na FileSystemSource. Ano
rekurzivní Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že pokud je rekurzivní nastavena na hodnotu true a jímka je úložiště založené na souborech, prázdná složka nebo podsložka se v jímce nezkopíruje ani nevytvoří.
Povolené hodnoty jsou true (výchozí) a false.
No
maxConcurrentConnections Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. No

Příklad:

"activities":[
    {
        "name": "CopyFromAmazonS3",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Amazon S3 input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "FileSystemSource",
                "recursive": true
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Seznam úložišť dat, která aktivita Copy podporuje jako zdroje a jímky, najdete v tématu Podporované úložiště dat.