Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Azure Data Lake Storage Gen2 je sada funkcí vyhrazených pro analýzy velkých objemů dat, která je integrovaná do úložiště objektů blob v Azure. Umožňuje vám rozhraní s daty pomocí paradigmat systému souborů i úložiště objektů.

Azure Data Factory (ADF) je plně spravovaná cloudová služba pro integraci dat. Pomocí této služby můžete naplnit jezero daty z bohaté sady místních a cloudových úložišť dat a ušetřit čas při vytváření analytických řešení. Podrobný seznam podporovaných konektorů najdete v tabulce podporovaných úložišť dat.

Azure Data Factory nabízí řešení pro přesun dat se škálováním na více instancí. Vzhledem k architektuře ADF se škálováním na více instancí může ingestovat data s vysokou propustností. Podrobnosti najdete v tématu aktivita Copy výkonu.

V tomto článku se dozvíte, jak pomocí nástroje Data Factory Kopírovat data načíst data ze služby Amazon Web Services S3 do Azure Data Lake Storage Gen2. Podobným postupem můžete kopírovat data z jiných typů úložišť dat.

Tip

Informace o kopírování dat z Azure Data Lake Storage Gen1 do Gen2 najdete v tomto konkrétním návodu.

Požadavky

  • Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si před zahájením bezplatný účet .
  • Účet Azure Storage s povolenou službou Data Lake Storage Gen2: Pokud účet Úložiště nemáte, vytvořte účet.
  • Účet AWS s kbelíkem S3, který obsahuje data: Tento článek ukazuje, jak kopírovat data z Amazon S3. Další úložiště dat můžete použít pomocí podobných kroků.

Vytvoření datové továrny

  1. Pokud jste ještě nevytvořili datovou továrnu, postupujte podle kroků v rychlém startu: Vytvoření datové továrny pomocí webu Azure Portal a nástroje Azure Data Factory Studio k jeho vytvoření. Po vytvoření přejděte na webu Azure Portal k datové továrně.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Na dlaždici Otevřít azure Data Factory Studio vyberte Otevřít, aby se aplikace Integrace Dat spustila na samostatné kartě.

Načtení dat do Azure Data Lake Storage Gen2

  1. Na domovské stránce služby Azure Data Factory vyberte dlaždici Ingestování a spusťte nástroj Pro kopírování dat.

  2. Na stránce Vlastnosti zvolte předdefinovaný úkol kopírování v části Typ úlohy a zvolte Spustit jednou pod pořadím úkolů nebo plánem úkolu a pak vyberte Další.

    Properties page

  3. Na stránce Zdrojové úložiště dat proveďte následující kroky:

    1. Vyberte + Nové připojení. V galerii konektorů vyberte Amazon S3 a vyberte Pokračovat.

      Source data store s3 page

    2. Na stránce Nové připojení (Amazon S3) proveďte následující kroky:

      1. Zadejte hodnotu ID přístupového klíče.
      2. Zadejte hodnotu tajného přístupového klíče .
      3. Výběrem možnosti Test připojení ověřte nastavení a pak vyberte Vytvořit.

      Specify Amazon S3 account

    3. Na stránce Zdrojové úložiště dat se ujistěte, že je v bloku Připojení ion vybráno nově vytvořené připojení Amazon S3.

    4. V části Soubor nebo složka přejděte do složky a souboru, který chcete zkopírovat. Vyberte složku nebo soubor a pak vyberte OK.

    5. Určete chování kopírování kontrolou možností rekurzivně a binární kopie . Vyberte Další.

    Screenshot that shows the source data store page.

  4. Na stránce Cílové úložiště dat proveďte následující kroky.

    1. Vyberte + Nové připojení a pak vyberte Azure Data Lake Storage Gen2 a pak vyberte Pokračovat.

      Destination data store page

    2. Na stránce Nové připojení (Azure Data Lake Storage Gen2) vyberte účet podporující Data Lake Storage Gen2 z rozevíracího seznamu Název účtu úložiště a výběrem možnosti Vytvořit vytvořte připojení.

      Specify Azure Data Lake Storage Gen2 account

    3. Na stránce Cílové úložiště dat vyberte nově vytvořené připojení v Připojení ionovém bloku. Potom v části Cesta ke složce zadejte jako název výstupní složky copyfroms3 a vyberte Další. ADF během kopírování vytvoří odpovídající systém souborů a podsložky ADLS Gen2, pokud neexistuje.

      Screenshot that shows the destination data store page.

  5. Na stránce Nastavení zadejte copyFromAmazonS3ToADLS pro pole Název úkolu a vyberte Další, pokud chcete použít výchozí nastavení.

    Settings page

  6. Na stránce Souhrn zkontrolujte nastavení a vyberte Další.

    Summary page

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu).

  8. Po úspěšném dokončení spuštění kanálu se zobrazí spuštění kanálu aktivované ruční aktivační událostí. Pomocí odkazů ve sloupci Název kanálu můžete zobrazit podrobnosti o aktivitě a znovu spustit kanál.

    Monitor pipeline runs

  9. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte odkaz CopyFromAmazonS3ToADLS pod sloupcem Název kanálu. Podrobnosti o operaci kopírování získáte tak, že ve sloupci Název aktivity vyberete odkaz Podrobnosti (ikona brýle). Můžete monitorovat podrobnosti, jako je objem dat zkopírovaný ze zdroje do jímky, propustnost dat, kroky provádění s odpovídající dobou trvání a použitou konfigurací.

    Monitor activity runs

    Monitor activity run details

  10. Jestliže chcete zobrazení aktualizovat, vyberte Aktualizovat. Výběrem možnosti Všechny spuštění kanálu v horní části se vraťte do zobrazení Spuštění kanálu.

  11. Ověřte, že se data zkopírují do vašeho účtu Data Lake Storage Gen2.