Načtení dat do Azure Data Lake Storage Gen1 pomocí Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Azure Data Lake Storage Gen1 (dříve označované jako Azure Data Lake Store) je podnikové úložiště s hyper-škálováním pro analytické úlohy pro velké objemy dat. Data Lake Storage Gen1 umožňuje zaznamenávat data libovolné velikosti, typu a rychlosti příjmu dat. Data se zaznamenávají na jednom místě pro provozní a průzkumnou analýzu.

Azure Data Factory je plně spravovaná cloudová služba pro integraci dat. Pomocí této služby můžete naplnit jezero daty z existujícího systému a ušetřit čas při sestavování analytických řešení.

Azure Data Factory nabízí následující výhody pro načítání dat do Data Lake Storage Gen1:

  • Snadné nastavení: Intuitivní 5stupňový průvodce bez nutnosti skriptování.
  • Podpora bohatého úložiště dat: Integrovaná podpora pro bohatou sadu místních a cloudových úložišť dat. Podrobný seznam najdete v tabulce podporovaných úložišť dat.
  • Zabezpečení a dodržování předpisů: Data se přenášejí přes HTTPS nebo ExpressRoute. Globální stav služby zajišťuje, že vaše data nikdy neopustí geografickou hranici.
  • Vysoký výkon: Rychlost načítání dat do Data Lake Storage Gen1 až 1 GB/s. Podrobnosti najdete v tématu aktivita Copy výkonu.

V tomto článku se dozvíte, jak pomocí nástroje Pro kopírování dat služby Data Factory načíst data z AmazonU S3 do Data Lake Storage Gen1. Podobným postupem můžete kopírovat data z jiných typů úložišť dat.

Požadavky

  • Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si před zahájením bezplatný účet .
  • Účet Data Lake Storage Gen1: Pokud účet Data Lake Storage Gen1 nemáte, přečtěte si pokyny v tématu Vytvoření účtu Data Lake Storage Gen1.
  • Amazon S3: Tento článek ukazuje, jak kopírovat data z Amazon S3. Další úložiště dat můžete použít pomocí podobných kroků.

Vytvoření datové továrny

  1. Pokud jste ještě nevytvořili datovou továrnu, postupujte podle kroků v rychlém startu: Vytvoření datové továrny pomocí webu Azure Portal a nástroje Azure Data Factory Studio k jeho vytvoření. Po vytvoření přejděte na webu Azure Portal k datové továrně.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Na dlaždici Otevřít azure Data Factory Studio vyberte Otevřít, aby se aplikace Integrace Dat spustila na samostatné kartě.

Načtení dat do Data Lake Storage Gen1

  1. Na domovské stránce vyberte dlaždici Ingest a spusťte nástroj Pro kopírování dat:

    Screenshot that shows the ADF home page.

  2. Na stránce Vlastnosti zadejte copyFromAmazonS3ToADLS pro pole Název úkolu a vyberte Další:

    Properties page

  3. Na stránce Zdrojové úložiště dat vyberte + Vytvořit nové připojení:

    Source data store page

    Vyberte Amazon S3 a vyberte Pokračovat.

    Source data store s3 page

  4. Na stránce Zadat připojení Amazon S3 proveďte následující kroky:

    1. Zadejte hodnotu ID přístupového klíče.

    2. Zadejte hodnotu tajného přístupového klíče .

    3. Vyberte Dokončit.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Zobrazí se nové připojení. Vyberte Další.

    Screenshot shows your new connection.

  5. Na stránce pro volbu vstupního souboru nebo složky přejděte ke složce a souboru, který chcete zkopírovat. Vyberte složku nebo soubor, vyberte Zvolit a pak vyberte Další:

    Choose input file or folder

  6. Zvolte chování kopírování tak , že vyberete možnosti Kopírovat soubory rekurzivně a Binární kopie (kopírovat soubory tak, jak je). Vyberte Další.

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. Na stránce Cílové úložiště dat vyberte + Vytvořit nové připojení a pak vyberte Azure Data Lake Storage Gen1 a pak vyberte Pokračovat:

    Destination data store page

  8. Na stránce Nová propojená služba (Azure Data Lake Storage Gen1) proveďte následující kroky:

    1. Jako název účtu Data Lake Store vyberte účet Data Lake Storage Gen1.
    2. Zadejte tenanta a vyberte Dokončit.
    3. Vyberte Další.

    Důležité

    V tomto názorném postupu použijete spravovanou identitu pro prostředky Azure k ověření účtu Data Lake Storage Gen1. Podle těchto pokynů nezapomeňte msi udělit správná oprávnění ve službě Data Lake Storage Gen1.

    Specify Data Lake Storage Gen1 account

  9. Na stránce Zvolit výstupní soubor nebo složku zadejte jako název výstupní složky copyfroms3 a vyberte Další:

    Screenshot shows the folder path you enter.

  10. Na stránce Nastavení vyberte Další:

    Settings page

  11. Na stránce Souhrn zkontrolujte nastavení a vyberte Další:

    Summary page

  12. Na stránce Nasazení vyberte Monitorování a sledujte kanál (úlohu):

    Deployment page

  13. Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Sloupec Akce obsahuje odkazy na zobrazení podrobností o spuštění aktivity a opětovné spuštění kanálu:

    Monitor pipeline runs

  14. Pokud chcete zobrazit spuštění aktivit přidružená ke spuštění kanálu, vyberte ve sloupci Akce odkaz Zobrazit spuštění aktivit. Kanál obsahuje pouze jednu aktivitu (aktivita kopírování), takže se zobrazí pouze jedna položka. Pokud chcete přepnout zpět do zobrazení spuštění kanálu, vyberte odkaz Kanály v horní části. Seznam můžete aktualizovat kliknutím na Aktualizovat.

    Monitor activity runs

  15. Pokud chcete monitorovat podrobnosti spuštění pro každou aktivitu kopírování, vyberte odkaz Podrobnosti v části Akce v zobrazení monitorování aktivit. Můžete monitorovat podrobnosti, jako je objem dat zkopírovaný ze zdroje do jímky, propustnost dat, kroky provádění s odpovídající dobou trvání a použité konfigurace:

    Monitor activity run details

  16. Ověřte, že se data zkopírují do vašeho účtu Data Lake Storage Gen1:

    Verify Data Lake Storage Gen1 output

V následujícím článku se dozvíte o podpoře Data Lake Storage Gen1: