Sdílet prostřednictvím


Přírůstkové kopírování nových souborů na základě časově rozděleného názvu souboru pomocí nástroje Kopírování dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Návod

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje vše od přesunu dat až po datovou vědu, analýzy v reálném čase, podnikovou analytiku a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte datovou továrnu. Poté pomocí nástroje Copy Data vytvoříte datový tok, který přírůstkově kopíruje nové soubory na základě názvu souboru rozděleného podle času z Azure Blob Storage do Azure Blob Storage.

Poznámka:

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu budete provádět následující kroky:

  • Vytvoření datové továrny
  • Použijte nástroj pro kopírování dat k vytvoření datového toku.
  • Monitorujte potrubí a běhy aktivit.

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
  • Účet úložiště Azure: Použijte úložiště objektů blob jako zdrojové a cílové úložiště dat. Pokud účet úložiště Azure nemáte, přečtěte si pokyny v tématu Vytvoření účtu úložiště.

Vytvořte dva kontejnery v úložišti objektů blob

Připravte si úložiště objektů blob pro kurz provedením těchto kroků.

  1. Vytvořte kontejner pojmenovaný zdroj. Ve svém kontejneru vytvořte cestu ke složce 2021/07/15/06 . Vytvořte prázdný textový soubor a pojmenujte ho jako file1.txt. Nahrajte file1.txt do cesty ke složce source/2021/07/15/06 ve vašem úložišti. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    Nahrát soubory

    Poznámka:

    Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 15. července 2021 6:10, můžete cestu ke složce vytvořit jako zdroj/2021/07/15/06/podle pravidla zdroje/{Rok}/{Měsíc}/{Den}/{Hodina}/.

  2. Vytvořte kontejner s názvem cíl. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

Vytvoření datové továrny

  1. V horní nabídce vyberte Vytvořit prostředek>Analýza>Datová továrna:

    Výběr služby Data Factory v panelu

  2. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Možná se zobrazí následující chybová zpráva:

    Nová chybová zpráva datové továrny pro duplicitní název

    Pokud obdržíte chybovou zprávu týkající se hodnoty názvu, zadejte jiný název datové výrobny. Použijte například název vaše_jménoADFTutorialDataFactory. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  3. Vyberte předplatné Azure, v rámci kterého se má nová datová továrna vytvořit.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b) Vyberte Vytvořit novou a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  5. V části Verze vyberte V2.

  6. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazují jenom podporovaná umístění. Úložiště dat (například služby Azure Storage a SQL Database) a výpočetní prostředí (například Azure HDInsight) používané datovou továrnou můžou být v jiných umístěních a oblastech.

  7. Vyberte Vytvořit.

  8. Po dokončení vytvoření se zobrazí domovská stránka Data Factory.

  9. Pokud chcete spustit uživatelské rozhraní (UI) Azure Data Factory na samostatné kartě, vyberte Otevřít na dlaždici Otevřít Azure Data Factory Studio.

    Domovská stránka služby Azure Data Factory s dlaždicí pro otevření Azure Data Factory Studio

Použijte nástroj Kopírování dat k vytvoření datového toku

  1. Na domovské stránce služby Azure Data Factory vyberte Ingest pro spuštění nástroje pro kopírování dat.

    Snímek obrazovky znázorňující domovskou stránku ADF

  2. Na stránce Vlastnosti proveďte následující kroky:

    1. V části Typ úkolu zvolte Předdefinovaný úkol kopírování.

    2. V části Tempo úkolu nebo plán úkolu vyberte Přeskakující okno.

    3. V části Opakování zadejte 1 hodiny.

    4. Vyberte Další.

    Stránka Vlastnosti

  3. Na stránce Source data store (Zdrojové úložiště dat) proveďte následující kroky:

    a. Pokud chcete přidat připojení, vyberte + Nové připojení .

    b) V galerii vyberte Azure Blob Storage a pak vyberte Pokračovat.

    c) Na stránce Nové připojení (Azure Blob Storage) zadejte název připojení. Vyberte své předplatné Azure a v seznamu názvů účtů úložiště vyberte svůj účet úložiště. Otestujte připojení a pak vyberte Vytvořit.

    Stránka Úložiště zdrojových dat

    d. Na stránce Zdrojové úložiště dat vyberte nově vytvořené připojení v části Připojení.

    e. V části Soubor nebo složka vyhledejte zdrojový kontejner a pak vyberte OK.

    f. V části Chování načítání souboru vyberte Přírůstkové načtení: časově dělené složky / názvy souborů.

    gram Napište cestu dynamické složky jako zdroj/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    h. Zaškrtněte binární kopii a vyberte Další.

    Snímek obrazovky znázorňující konfiguraci stránky Zdrojové úložiště dat

  4. Na stránce Cílové úložiště dat proveďte následující kroky:

    1. Vyberte AzureBlobStorage, což je stejný účet úložiště jako úložiště zdrojů dat.

    2. Vyhledejte a vyberte cílovou složku a pak vyberte OK.

    3. Napište cestu dynamické složky jako cíl/{year}/{month}/{day}/{hour}/a změňte formát, jak je znázorněno na následujícím snímku obrazovky.

    4. Vyberte Další.

    Snímek obrazovky znázorňující konfiguraci stránky cílového úložiště dat

  5. Na stránce Nastavení v části Název úlohy zadejte DeltaCopyFromBlobPipeline a pak vyberte Další. Uživatelské rozhraní služby Data Factory vytvoří kanál se zadaným názvem úlohy.

    Snímek obrazovky znázorňující konfiguraci stránky nastavení

  6. Na stránce Souhrn zkontrolujte nastavení a pak vyberte Další.

    Souhrnná stránka

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu). Stránka Nasazení

  8. Všimněte si, že je vlevo automaticky vybraná záložka Monitor. Musíte počkat na spuštění pipeline, když se aktivuje automaticky (přibližně po jedné hodině). Po spuštění vyberte odkaz na název kanálu DeltaCopyFromBlobPipeline a zobrazte podrobnosti o spuštění aktivity nebo znovu spusťte kanál. Seznam můžete aktualizovat kliknutím na Aktualizovat.

    Snímek obrazovky zobrazuje podokno spuštění pipelinu.

  9. V kanálu je pouze jedna aktivita (kopírovací aktivita), takže se zobrazí pouze jedna položka. Upravte šířku sloupce zdrojového a cílového sloupce (pokud je to nutné), abyste zobrazili další podrobnosti, můžete vidět, že zdrojový soubor (file1.txt) byl zkopírován ze zdroje/2021/07/15/06/ do cíle/2021/07/15/06/ se stejným názvem souboru.

    Snímek obrazovky ukazuje podrobnosti o spuštění potrubí.

    Totéž můžete ověřit také pomocí Průzkumník služby Azure Storage (https://storageexplorer.com/) ke kontrole souborů.

    Snímek obrazovky ukazuje podrobnosti o běhu pipeline pro cíl.

  10. Vytvořte další prázdný textový soubor s novým názvem jako file2.txt. Nahrajte soubor file2.txt do cesty ke složce source/2021/07/15/07 ve vašem úložišti. K provedení těchto úloh můžete použít různé nástroje, například Průzkumníka služby Azure Storage.

    Poznámka:

    Možná víte, že je potřeba vytvořit novou cestu ke složce. Upravte název složky podle času UTC. Pokud je například aktuální čas UTC 7:30 v červenci. 15. července 2021 můžete vytvořit cestu ke složce jako zdroj/2021/07/15/07/ podle pravidla {Year}/{Month}/{Day}/{Hour}/.

  11. Pokud se chcete vrátit do zobrazení spuštění pipeline, vyberte Všechna spuštění pipeline a počkejte, až bude stejná pipeline znovu automaticky spuštěna po jedné hodině.

    Snímek obrazovky ukazuje odkaz Všechna spuštění kanálu, který se používá k návratu na danou stránku.

  12. Vyberte nový odkaz DeltaCopyFromBlobPipeline pro druhé spuštění kanálu, jakmile bude k dispozici, a udělejte totéž, abyste si prohlédli podrobnosti. Zdrojový soubor (file2.txt) se zkopíruje ze zdroje/2021/07/15/07/ do cíle/2021/07/07/15/07/ se stejným názvem souboru. Stejný postup můžete ověřit také pomocí Azure Storage Explorer (https://storageexplorer.com/) pro kontrolu souborů v kontejneru cílovém.

Pokud se chcete dozvědět víc o transformaci dat pomocí clusteru Spark v Azure, přejděte k následujícímu kurzu: