Konfigurace Azure Data Lake Storage Gen2 v aktivitě kopírování

Tento článek popisuje, jak pomocí aktivity kopírování v datovém kanálu kopírovat data z a do Azure Data Lake Storage Gen2.

Podporovaný formát

Azure Data Lake Storage Gen2 podporuje následující formáty souborů. Informace o nastaveních založených na formátu najdete v jednotlivých článcích.

Podporovaná konfigurace

Konfigurace každé karty v aktivitě kopírování najdete v následujících částech.

OBECNÉ

Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Source

Následující vlastnosti jsou podporované pro Azure Data Lake Storage Gen2 na kartě Zdroj aktivity kopírování.

Screenshot showing source tab.

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.

  • Připojení ion: Ze seznamu připojení vyberte připojení Azure Data Lake Storage Gen2. Pokud žádné připojení neexistuje, vytvořte nové připojení Azure Data Lake Storage Gen2 výběrem možnosti Nový.

  • typ Připojení: Vyberte Azure Data Lake Storage Gen2.

  • Typ cesty k souboru: Jako typ cesty k souboru můžete zvolit cestu k souboru, cestu k souboru se zástupným znakem nebo seznam souborů . Konfigurace každého z těchto nastavení je:

    • Cesta k souboru: Pokud zvolíte tento typ, lze data zkopírovat ze zadaného systému souborů nebo cesty ke složce nebo souboru zadané dříve.

    • Cesta k souboru se zástupným znakem: Pokud zvolíte tento typ, zadejte systém souborů a cesty se zástupnými cardy.

      • Systém souborů: Název systému souborů Azure Data Lake Storage Gen2.

      • Cesty se zástupnými znaky: Určete složku nebo cestu k souboru se zástupnými znaky v zadaném systému souborů pro filtrování zdrojových složek nebo souborů.

        Povolené zástupné znaky jsou: * (odpovídá nule nebo více znaků) a ? (odpovídá nule nebo jednomu znaku). Slouží ^ k řídicímu znaku, pokud má název složky zástupný znak nebo tento řídicí znak uvnitř. Další příklady najdete v příkladech filtru složek a souborů.

        Screenshot showing wildcard file path.

        • Cesta ke složce se zástupnými znaky: Zadejte cestu ke složce se zástupnými znaky v zadaném systému souborů, abyste mohli filtrovat zdrojové složky.

        • Název souboru se zástupnými znaky: Zadejte název souboru se zástupnými znaky v zadaném systému souborů + cesta ke složce (nebo cesta ke složce se zástupnými znaky) pro filtrování zdrojových souborů.

    • Seznam souborů: Označuje, že chcete zkopírovat danou sadu souborů. Zadejte cestu ke složce a cestu k seznamu souborů, aby odkaz na textový soubor, který obsahuje seznam souborů, které chcete kopírovat, jeden soubor na řádek, což je relativní cesta k cestě. Další příklady najdete v příkladech se seznamem souborů.

      Screenshot showing path to file list.

      • Cesta ke složce: Zadejte cestu ke složce v zadaném systému souborů. Je to povinné.

      • Cesta k seznamu souborů: Zadejte cestu k textovému souboru, který obsahuje seznam souborů, které chcete kopírovat.

  • Rekurzivně: Určete, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že když je vybrána rekurzivní hodnota a cílem je úložiště založené na souborech, není v cíli zkopírována nebo vytvořena prázdná složka nebo podsložka. Tato vlastnost je ve výchozím nastavení vybraná a nevztahuje se při konfiguraci cesty k seznamu souborů.

  • Formát souboru: V rozevíracím seznamu vyberte formát souboru použitý. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

V části Upřesnit můžete zadat následující pole:

  • Filtrovat podle poslední změny: Soubory se filtrují na základě data poslední změny. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů.

    • Čas zahájení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny větší nebo roven nakonfigurovanému času.

    • Čas ukončení (UTC): Soubory se vyberou, pokud je jejich čas poslední změny kratší než nakonfigurovaný čas.

    Pokud počáteční čas (UTC) má hodnotu datetime, ale koncový čas (UTC) má hodnotu NULL, znamená to, že budou vybrány soubory, jejichž atribut poslední změny je větší nebo roven hodnotě datetime. Pokud má koncový čas (UTC) hodnotu datetime, ale počáteční čas (UTC) má hodnotu NULL, znamená to, že soubory, jejichž atribut poslední změny je menší než hodnota datetime, budou vybrány. Vlastnosti mohou mít hodnotu NULL, což znamená, že na data se nepoužije žádný filtr atributů souboru.

  • Povolit zjišťování oddílů: Určete, jestli chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. Ve výchozím nastavení se nevybíná a nepodporuje se při použití binárního formátu souboru.

    • Kořenová cesta oddílu: Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce.

      Pokud není ve výchozím nastavení zadán,

      • Při použití cesty k souboru nebo seznamu souborů ve zdroji je kořenová cesta oddílu cesta, kterou jste nakonfigurovali.
      • Pokud používáte filtr složek se zástupnými otazemi, je kořenová cesta oddílu pod cestou před prvním zástupným znakem.

      Předpokládejme například, že cestu nakonfigurujete takto root/folder/year=2020/month=08/day=27:

      • Pokud zadáte kořenovou cestu oddílu jako root/folder/year=2020, aktivita kopírování vygeneruje dva další sloupce měsíc a den s hodnotou "08" a "27" kromě sloupců uvnitř souborů.
      • Pokud není zadaná kořenová cesta oddílu, nevygeneruje se žádný sloupec navíc.

    Screenshot showing partition discovery.

  • Maximální počet souběžných připojení: Tato vlastnost označuje horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

  • Další sloupce: Přidejte další datové sloupce pro ukládání relativní cesty nebo statické hodnoty zdrojových souborů. U druhého výrazu se podporuje.

Cíl

Následující vlastnosti jsou podporované pro Azure Data Lake Storage Gen2 na kartě Cíl aktivity kopírování.

Screenshot showing destination tab.

Jsou vyžadovány následující vlastnosti:

  • Typ úložiště dat: Vyberte externí.
  • Připojení ion: Ze seznamu připojení vyberte připojení Azure Data Lake Storage Gen2. Pokud žádné připojení neexistuje, vytvořte nové připojení Azure Data Lake Storage Gen2 výběrem možnosti Nový.
  • typ Připojení: Vyberte Azure Data Lake Storage Gen2.
  • Cesta k souboru: Vyberte Procházet a zvolte soubor, který chcete zkopírovat nebo vyplnit ručně.
  • Formát souboru: V rozevíracím seznamu vyberte formát souboru použitý. Vyberte Nastavení a nakonfigurujte formát souboru. Podrobné informace najdete v článku o nastavení různých formátů souborů v podporovaném formátu .

V části Upřesnit můžete zadat následující pole:

  • Chování kopírování: Definuje chování kopírování, pokud zdroj je soubory ze souborového úložiště dat. V rozevíracím seznamu můžete zvolit chování.

    Screenshot showing copy behavior.

    • Zploštěná hierarchie: Všechny soubory ze zdrojové složky jsou na první úrovni cílové složky. Cílové soubory mají automaticky vygenerované názvy.
    • Sloučit soubory: Sloučí všechny soubory ze zdrojové složky do jednoho souboru. Pokud je zadaný název souboru, je zadaným názvem sloučený soubor. V opačném případě se jedná o automaticky vygenerovaný název souboru.
    • Zachovat hierarchii: Zachová hierarchii souborů v cílové složce. Relativní cesta zdrojového souboru ke zdrojové složce je shodná s relativní cestou cílového souboru k cílové složce.
  • Maximální počet souběžných připojení: Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení.

  • Velikost bloku (MB):Zadejte velikost bloku v MB použitou k zápisu dat do Azure Data Lake Storage Gen2. Další informace najdete v tématu Objekty blob bloku. Povolená hodnota je mezi 4 MB a 100 MB.

    Ve výchozím nastavení se velikost bloku automaticky určí na základě typu a dat zdrojového úložiště. V případě nebinární kopie do Azure Data Lake Storage Gen2 je výchozí velikost bloku 100 MB, aby se vešla maximálně do 4,75 TB dat. Pokud data nejsou velká, nemusí být optimální. Můžete explicitně zadat velikost bloku, zatímco zajistěte, aby velikost bloku (MB)*50000 byla dostatečně velká k uložení dat, jinak se spuštění aktivity kopírování nezdaří.

  • Metadata: Při kopírování do cíle nastavte vlastní metadata. Každý objekt pod metadata polem představuje další sloupec. Definuje name název klíče metadat a value označuje hodnotu dat tohoto klíče. Pokud se použije funkce zachování atributů, zadaná metadata se sjednocují nebo přepíšou metadaty zdrojového souboru.

    Povolené datové hodnoty jsou:

    • $$LASTMODIFIED: Rezervovaná proměnná označuje, že se má uložit čas poslední změny zdrojových souborů. Platí pouze pro souborový zdroj s binárním formátem.
    • Expression
    • Statická hodnota

    Screenshot showing metadata.

mapování.

V části Konfigurace karty Mapování přejděte na Konfigurace mapování na kartě Mapování. Pokud jako formát souboru zvolíte Binary, mapování se nepodporuje.

Nastavení

Konfiguraci karty Nastavení získáte v části Konfigurace dalších nastavení na kartě Nastavení.

Souhrn tabulky

Následující tabulky obsahují další informace o aktivitě kopírování ve službě Azure Data Lake Storage Gen2.

Informace o zdroji

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení ke zdrojovému úložišti dat. <připojení Azure Data Lake Storage Gen2> Ano připojení
Typ připojení: Typ připojení. Vyberte Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ano /
Typ cesty k souboru Typ cesty k souboru, který chcete použít. • Cesta k souboru
• Cesta ke složce se zástupným znakem, název souboru se zástupným znakem
•Seznam souborů
Ano • folderPath, fileName, fileSystem
• wildcardFolderPath, wildcardFileName, fileSystem
• folderPath, fileName, fileListPath
Rekurzivně Určuje, zda se data čtou rekurzivně z podsložek nebo pouze ze zadané složky. Všimněte si, že když je vybrána rekurzivní hodnota a cílem je úložiště založené na souborech, není v cíli zkopírována nebo vytvořena prázdná složka nebo podsložka. Tato vlastnost se nepoužije při konfiguraci cesty k seznamu souborů. selected (default) or unselect No Rekurzivní
Filtrovat podle poslední změny Soubory s časem poslední změny v rozsahu [Počáteční čas, Koncový čas) se vyfiltrují pro další zpracování. Čas se použije u časového pásma UTC ve formátu yyyy-mm-ddThh:mm:ss.fffZ. Tyto vlastnosti lze přeskočit, což znamená, že se nepoužije žádný filtr atributů souboru. Tato vlastnost se nepoužije při konfiguraci typu cesty k souboru jako seznam souborů. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Povolení zjišťování oddílů Určuje, zda chcete analyzovat oddíly z cesty k souboru a přidat je jako další zdrojové sloupce. vybraná nebo nevybraná (výchozí) No enablePartitionDiscovery:
true nebo false (výchozí)
Kořenová cesta oddílu Pokud je povolené zjišťování oddílů, zadejte absolutní kořenovou cestu, abyste mohli číst dělené složky jako datové sloupce. < kořenová cesta oddílu > No partitionRootPath
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrent Připojení ions
Další sloupce Přidejte další datové sloupce pro ukládání relativní cesty ke zdrojovým souborům nebo statické hodnotě. U druhého výrazu se podporuje. • Jméno
•Hodnotu
No additionalColumns:
•Jméno
•Hodnotu

Informace o cíli

Název Popis Hodnota Požaduje se Vlastnost skriptu JSON
Typ úložiště dat Váš typ úložiště dat. Externí Ano /
Připojení Vaše připojení k cílovému úložišti dat. <připojení Azure Data Lake Storage Gen2> Ano připojení
Typ připojení: Typ připojení. Vyberte Azure Data Lake Storage Gen2. Azure Data Lake Storage Gen2 Ano /
Cesta k souboru Cesta k souboru cílových dat. < cesta k souboru > Ano folderPath, fileName, fileSystem
Chování kopírování Definuje chování kopírování, pokud je zdrojem soubory ze souborového úložiště dat. • Zploštěná hierarchie
• Sloučit soubory
• Zachovat hierarchii
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• ZachovatHierarchy
Maximální počet souběžných připojení Horní limit souběžných připojení vytvořených k úložišti dat během spuštění aktivity. Zadejte hodnotu pouze v případech, kdy chcete omezit souběžná připojení. <maximální počet souběžných připojení> No maxConcurrent Připojení ions
Velikost bloku (MB) Při zápisu dat do Azure Data Lake Storage Gen2 zadejte velikost bloku v MB. Povolená hodnota je mezi 4 MB a 100 MB. <velikost bloku> No blockSizeInMB
Metadata Při kopírování do cíle nastavte vlastní metadata. $$LASTMODIFIED
•Výraz
• Statická hodnota
No metadata