Přírůstkové kopírování nových a změněných souborů na základě funkce LastModifiedDate pomocí nástroje Pro kopírování dat

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Návod

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

V tomto kurzu použijete portál Azure k vytvoření datové továrny. Pak použijete nástroj pro kopírování dat k vytvoření kanálu, který přírůstkově kopíruje nové a změněné soubory, pouze z úložiště objektů blob Azure do Azure Blob Storage. Používá LastModifiedDate k určení souborů, které se mají kopírovat.

Po dokončení tohoto postupu Azure Data Factory zkontroluje všechny soubory ve zdrojovém úložišti, použije filtr souborů podle LastModifiedDate a zkopíruje do cílového úložiště jenom soubory, které jsou nové nebo byly od poslední doby aktualizovány. Mějte na paměti, že pokud Data Factory prohledá velký počet souborů, měli byste stále očekávat dlouhé doby trvání. Kontrola souborů je časově náročná, i když se sníží množství zkopírovaných dat.

Poznámka:

Pokud se službou Data Factory začínáte, přečtěte si téma Introduction Azure Data Factory.

V tomto kurzu dokončíte tyto úlohy:

  • Vytvoření datové továrny
  • Použijte nástroj pro kopírování dat k vytvoření kanálu.
  • Monitorujte pipeline a spuštění aktivit.

Požadavky

  • Azure předplatné: Pokud ještě nemáte předplatné Azure, vytvořte si účet free než začnete.
  • Azure Storage account: Pro zdrojová a cílová datová úložiště použijte úložiště typu Blob. Pokud účet Azure Storage nemáte, postupujte podle pokynů v tématu Vytvoření účtu úložiště.

Vytvořte dva kontejnery v Blob úložišti

Připravte si úložiště objektů blob pro kurz provedením těchto kroků:

  1. Vytvořte kontejner pojmenovaný zdroj. K provedení této úlohy můžete použít různé nástroje, například Azure Storage Explorer.

  2. Vytvořte kontejner s názvem cíl.

Vytvoření datové továrny

  1. V horní nabídce vyberte Vytvořit prostředek>Analýza>Datová továrna:

    Výběr služby Data Factory

  2. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název vaší datové továrny musí být unikátní na celosvětové úrovni. Může se zobrazit tato chybová zpráva:

    Nová chybová zpráva v Data Factory s duplicitním názvem.

    Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. Použijte například název vaše_jménoADFTutorialDataFactory. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  3. V části Subscription vyberte Azure předplatné, ve kterém vytvoříte novou datovnu.

  4. Proveďte jeden z těchto kroků v části Skupina prostředků.

    • Vyberte Použít existující a pak v seznamu vyberte existující skupinu prostředků.

    • Vyberte Vytvořit nový a zadejte název skupiny prostředků.

    Další informace o skupinách prostředků najdete v tématu Užití skupin prostředků ke správě prostředků Azure.

  5. Jako Verzi vyberte V2.

  6. V části Umístění vyberte umístění datové továrny. V seznamu se zobrazí jenom podporovaná umístění. Úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (například Azure HDInsight), které vaše datová továrna používá, můžou být v jiných umístěních a oblastech.

  7. Vyberte Vytvořit.

  8. Po vytvoření datové továrny se zobrazí domovská stránka datové továrny.

  9. Pokud chcete otevřít uživatelské rozhraní Azure Data Factory na samostatné kartě, vyberte Open na dlaždici Open Azure Data Factory Studio:

    Domovská stránka Azure Data Factory s dlaždicí Otevřít Studio Azure Data Factory.

Vytvoření kanálu pomocí nástroje pro kopírování dat

  1. Na domovské stránce Azure Data Factory vyberte dlaždici Ingest a otevřete nástroj Pro kopírování dat:

    Snímek obrazovky znázorňující domovskou stránku ADF

  2. Na stránce Vlastnosti proveďte následující kroky:

    1. V části Typ úkolu vyberte Předdefinovaný úkol kopírování.

    2. V části Tempo úkolu nebo plán úkolu vyberte Přeskakující okno.

    3. V části Opakování zadejte 15 minut.

    4. Vyberte Další.

    Stránka vlastností dat pro kopírování

  3. Na stránce Zdrojové úložiště dat proveďte následující kroky:

    1. Pokud chcete přidat připojení, vyberte + Nové připojení .

    2. V galerii vyberte Azure Blob Storage a pak vyberte Continue:

       Vyberte Azure Úložiště blogu

    3. Na stránce Nové připojení (Azure Blob Storage) vyberte své předplatné Azure ze seznamu Azure předplatné a ze seznamu Storage. Otestujte připojení a pak vyberte Vytvořit.

    4. V bloku připojení vyberte nově vytvořené připojení.

    5. V části Soubor nebo složka vyberte Procházet a zvolte zdrojovásložka a pak vyberte OK.

    6. V části Chování načítání souboru vyberte Přírůstkové načtení: LastModifiedDate a zvolte Binární kopie.

    7. Vyberte Další.

    Snímek obrazovky znázorňující stránku Zdrojové úložiště dat

  4. Na stránce Cílové úložiště dat proveďte následující kroky:

    1. Vyberte připojení AzureBlobStorage, které jste vytvořili. Jedná se o stejný účet úložiště jako zdrojové úložiště dat.

    2. V části Cesta ke složce vyhledejte a vyberte cílovou složku a pak vyberte OK.

    3. Vyberte Další.

    Snímek obrazovky znázorňující stránku Cílové úložiště dat

  5. Na stránce Nastavení v části Název úlohy zadejte DeltaCopyFromBlobPipeline a pak vyberte Další. Data Factory vytvoří kanál se zadaným názvem úlohy.

    Snímek obrazovky se stránkou Nastavení

  6. Na stránce Souhrn zkontrolujte nastavení a pak vyberte Další.

    Souhrnná stránka

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu).

    Stránka Nasazení

  8. Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Aplikace se přepne na kartu Monitorování . Zobrazí se stav kanálu. Seznam můžete aktualizovat kliknutím na Aktualizovat. Výběrem odkazu v části Název kanálu zobrazte podrobnosti o spuštění aktivity nebo znovu spusťte kanál.

    Aktualizace seznamu a zobrazení podrobností o spuštění aktivity

  9. V datovém kanálu je jen jedna aktivita (kopírovací aktivita), takže uvidíte pouze jednu položku. Podrobnosti o operaci kopírování zjistíte na stránce Aktivity, když ve sloupci Název aktivity vyberete odkaz Podrobnosti (ikona s podobou brýlí). Podrobnosti o vlastnostech najdete v tématu Přehled aktivity kopírování.

    Copy activity v potrubí

    Vzhledem k tomu, že ve zdrojovém kontejneru v účtu úložiště blob nejsou žádné soubory, neuvidíte v účtu žádné soubory zkopírované do cílového kontejneru:

    Žádné soubory ve zdrojovém kontejneru nebo cílovém kontejneru

  10. Vytvořte prázdný textový soubor a pojmenujte ho file1.txt. Nahrajte tento textový soubor do kontejneru zdroje ve vašem úložném účtu. K provádění těchto úloh můžete použít různé nástroje, například Azure Storage Explorer.

    Vytvoření file1.txt a jeho nahrání do zdrojového kontejneru

  11. Pokud se chcete vrátit do zobrazení spuštění kanálu, vyberte odkaz Všechny spuštění kanálu v nabídce navigační cesty na stránce Spuštění aktivit a počkejte, až se stejný kanál automaticky aktivuje.

  12. Po dokončení spuštění druhého workflowu postupujte podle stejných kroků zmíněných dříve a zkontrolujte podrobnosti o aktivitě.

    Uvidíte, že se jeden soubor (file1.txt) zkopíroval ze zdrojového kontejneru do cílového kontejneru vašeho účtu blob storage:

    file1.txt se zkopírovaly ze zdrojového kontejneru do cílového kontejneru.

  13. Vytvořte další prázdný textový soubor a pojmenujte ho file2.txt. Nahrajte tento textový soubor do zdrojového kontejneru v účtu úložiště objektů blob.

  14. Opakujte kroky 11 a 12 pro druhý textový soubor. Uvidíte, že se během tohoto spuštění kanálu zkopíroval jenom nový soubor (file2.txt) ze zdrojového kontejneru do cílového kontejneru vašeho účtu úložiště.

    Pomocí nástroje Azure Storage Explorer můžete také ověřit, že se zkopíroval jenom jeden soubor ke skenování souborů:

    Naskenovat soubory pomocí Azure Storage Explorer

V následujícím kurzu se dozvíte, jak transformovat data pomocí clusteru Apache Spark na Azure: