Sdílet prostřednictvím


Přírůstkové kopírování nových souborů na základě názvu souboru rozděleného podle času pomocí nástroje pro kopírování dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte datovou továrnu. Potom pomocí nástroje pro kopírování dat vytvoříte kanál, který přírůstkově kopíruje nové soubory na základě názvu souboru rozděleného podle času z Úložiště objektů blob v Azure do služby Azure Blob Storage.

Poznámka:

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu budete provádět následující kroky:

  • Vytvoření datové továrny
  • Vytvoření kanálu pomocí nástroje pro kopírování dat
  • Monitorování spuštění aktivit a kanálu

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
  • Účet úložiště Azure: Jako zdrojové úložiště dat a úložiště dat jímky použijte úložiště objektů blob. Pokud účet úložiště Azure nemáte, přečtěte si pokyny v tématu Vytvoření účtu úložiště.

Vytvoření dvou kontejnerů v úložišti objektů blob

Připravte si úložiště objektů blob pro kurz provedením těchto kroků.

  1. Vytvořte kontejner pojmenovaný zdroj. Ve svém kontejneru vytvořte cestu ke složce 2021/07/15/06 . Vytvořte prázdný textový soubor a pojmenujte ho jako file1.txt. Nahrajte file1.txt do zdroje cesty ke složce 2021/07/15/06 ve vašem účtu úložiště. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    Vkládat

    Poznámka:

    Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 15. července 2021 6:10, můžete cestu ke složce vytvořit jako zdroj/2021/07/15/06/podle pravidla zdroje/{Rok}/{Měsíc}/{Den}/{Hodina}/.

  2. Vytvořte kontejner s názvem cíl. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

Vytvoření datové továrny

  1. V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků>:

    Výběr služby Data Factory v části

  2. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Možná se zobrazí následující chybová zpráva:

    Nová chybová zpráva datové továrny pro duplicitní název

    Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. Použijte například název vaše_jménoADFTutorialDataFactory. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  3. Vyberte předplatné Azure, v rámci kterého se má nová datová továrna vytvořit.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b. Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  5. V části Verze vyberte V2.

  6. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazují jenom podporovaná umístění. Úložiště dat (například služby Azure Storage a SQL Database) a výpočetní prostředí (například Azure HDInsight) používané datovou továrnou můžou být v jiných umístěních a oblastech.

  7. Vyberte Vytvořit.

  8. Po vytvoření se zobrazí domovská stránka Datová továrna.

  9. Pokud chcete spustit uživatelské rozhraní (UI) Azure Data Factory na samostatné kartě, vyberte Otevřít na dlaždici Otevřít Azure Data Factory Studio .

    Domovská stránka služby Azure Data Factory s dlaždicí Open Azure Data Factory Studio

Vytvoření kanálu pomocí nástroje pro kopírování dat

  1. Na domovské stránce služby Azure Data Factory vyberte název Ingestování a spusťte nástroj pro kopírování dat.

    Snímek obrazovky znázorňující domovskou stránku ADF

  2. Na stránce Vlastnosti proveďte následující kroky:

    1. V části Typ úkolu zvolte Předdefinovaný úkol kopírování.

    2. V části Tempo úkolu nebo plán úkolu vyberte Přeskakující okno.

    3. V části Opakování zadejte 1 hodiny.

    4. Vyberte Další.

    Stránka Vlastnosti

  3. Na stránce Source data store (Zdrojové úložiště dat) proveďte následující kroky:

    a. Pokud chcete přidat připojení, vyberte + Nové připojení .

    b. V galerii vyberte Azure Blob Storage a pak vyberte Pokračovat.

    c. Na stránce Nové připojení (Azure Blob Storage) zadejte název připojení. Vyberte své předplatné Azure a v seznamu názvů účtů úložiště vyberte svůj účet úložiště. Otestujte připojení a pak vyberte Vytvořit.

    Stránka Zdrojové úložiště dat

    d. Na stránce Zdrojové úložiště dat vyberte nově vytvořené připojení v části Připojení.

    e. V části Soubor nebo složka vyhledejte zdrojový kontejner a pak vyberte OK.

    f. V části Chování při načítání souborů vyberte Přírůstkové načtení: časově dělené složky nebo názvy souborů.

    g. Napište cestu dynamické složky jako zdroj/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    h. Zaškrtněte binární kopii a vyberte Další.

    Snímek obrazovky znázorňující konfiguraci stránky Zdrojové úložiště dat

  4. Na stránce Cílové úložiště dat proveďte následující kroky:

    1. Vyberte AzureBlobStorage, což je stejný účet úložiště jako úložiště zdrojů dat.

    2. Vyhledejte a vyberte cílovou složku a pak vyberte OK.

    3. Napište cestu dynamické složky jako cíl/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    4. Vyberte Další.

    Snímek obrazovky znázorňující konfiguraci stránky cílového úložiště dat

  5. Na stránce Nastavení v části Název úlohy zadejte DeltaCopyFromBlobPipeline a pak vyberte Další. Uživatelské rozhraní služby Data Factory vytvoří kanál se zadaným názvem úlohy.

    Snímek obrazovky znázorňující konfiguraci stránky nastavení

  6. Na stránce Souhrn zkontrolujte nastavení a pak vyberte Další.

    Stránka Souhrn

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu). Stránka Nasazení

  8. Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Potřebujete počkat na spuštění kanálu, když se aktivuje automaticky (přibližně po jedné hodině). Po spuštění vyberte odkaz na název kanálu DeltaCopyFromBlobPipeline a zobrazte podrobnosti o spuštění aktivity nebo znovu spusťte kanál. Seznam můžete aktualizovat kliknutím na Aktualizovat.

    Snímek obrazovky znázorňující podokno Spuštění kanálu

  9. Kanál obsahuje pouze jednu aktivitu (aktivita kopírování), takže se zobrazí pouze jedna položka. Upravte šířku sloupce zdrojového a cílového sloupce (pokud je to nutné), abyste zobrazili další podrobnosti, můžete vidět, že zdrojový soubor (file1.txt) byl zkopírován ze zdroje/2021/07/15/06/ do cíle/2021/07/15/06/ se stejným názvem souboru.

    Snímek obrazovky s podrobnostmi o spuštění kanálu

    Totéž můžete ověřit také pomocí Průzkumník služby Azure Storage (https://storageexplorer.com/) ke kontrole souborů.

    Snímek obrazovky s podrobnostmi o spuštění kanálu pro cíl

  10. Vytvořte další prázdný textový soubor s novým názvem jako file2.txt. Nahrajte soubor file2.txt do zdroje cesty ke složce 2021/07/15/07 ve vašem účtu úložiště. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    Poznámka:

    Možná víte, že je potřeba vytvořit novou cestu ke složce. Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 7:30 v červenci. 15. 2021 můžete vytvořit cestu ke složce jako zdroj/2021/07/15/07/ pravidlem {Year}/{Month}/{Day}/{Hour}//.

  11. Pokud se chcete vrátit do zobrazení spuštění kanálu, vyberte Všechna spuštění kanálů a počkejte, až se stejný kanál aktivuje automaticky po jedné hodině.

    Snímek obrazovky znázorňující odkaz Všechna spuštění kanálu, který se má vrátit na danou stránku

  12. Vyberte nový odkaz DeltaCopyFromBlobPipeline pro druhé spuštění kanálu, pokud je k dispozici, a proveďte totéž, abyste zkontrolovali podrobnosti. Zdrojový soubor (file2.txt) se zkopíruje ze zdroje/2021/07/15/07/ do cíle/2021/07/07/15/07/ se stejným názvem souboru. Stejný postup můžete ověřit také pomocí Průzkumník služby Azure Storage (https://storageexplorer.com/) ke kontrole souborů v cílovém kontejneru.

Pokud se chcete dozvědět víc o transformaci dat pomocí clusteru Spark v Azure, přejděte k následujícímu kurzu: