Sdílet prostřednictvím


Přírůstkové kopírování nových a změněných souborů na základě funkce LastModifiedDate pomocí nástroje Pro kopírování dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu vytvoříte datovou továrnu pomocí webu Azure Portal. Pak použijete nástroj pro kopírování dat k vytvoření kanálu, který přírůstkově kopíruje nové a změněné soubory, pouze ze služby Azure Blob Storage do služby Azure Blob Storage. Používá LastModifiedDate k určení souborů, které se mají kopírovat.

Po dokončení kroků zde služba Azure Data Factory prohledá všechny soubory ve zdrojovém úložišti, použije filtr souborů podle LastModifiedDatea zkopíruje do cílového úložiště pouze soubory, které jsou nové nebo byly od poslední doby aktualizovány. Mějte na paměti, že pokud Data Factory prohledá velký počet souborů, měli byste stále očekávat dlouhé doby trvání. Kontrola souborů je časově náročná, i když se sníží množství zkopírovaných dat.

Poznámka:

Pokud se službou Data Factory teprve začínáte, přečtěte si téma Úvod do Azure Data Factory.

V tomto kurzu dokončíte tyto úlohy:

  • Vytvoření datové továrny
  • Vytvoření kanálu pomocí nástroje pro kopírování dat
  • Monitorování spuštění aktivit a kanálu

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
  • Účet služby Azure Storage: Úložiště objektů blob použijte pro úložiště dat zdroje a jímky. Pokud nemáte účet Azure Storage, postupujte podle pokynů v tématu Vytvoření účtu úložiště.

Vytvoření dvou kontejnerů v úložišti objektů blob

Připravte si úložiště objektů blob pro kurz provedením těchto kroků:

  1. Vytvořte kontejner pojmenovaný zdroj. K provedení této úlohy můžete použít různé nástroje, například Průzkumník služby Azure Storage.

  2. Vytvořte kontejner s názvem cíl.

Vytvoření datové továrny

  1. V levém podokně vyberte Vytvořit prostředek. Vyberte Integration>Data Factory:

    Select Data Factory

  2. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

    Název datové továrny musí být globálně jedinečný. Může se zobrazit tato chybová zpráva:

    Nová chybová zpráva datové továrny pro duplicitní název

    Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. Použijte například název vaše_jménoADFTutorialDataFactory. Pravidla pojmenování artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

  3. V části Předplatné vyberte předplatné Azure, ve kterém vytvoříte novou datovou továrnu.

  4. V části Skupina prostředků proveďte jeden z těchto kroků:

    • Vyberte Použít existující a pak v seznamu vyberte existující skupinu prostředků.

    • Vyberte Vytvořit nový a zadejte název skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  5. Jako Verzi vyberte V2.

  6. V části Umístění vyberte umístění datové továrny. V seznamu se zobrazí jenom podporovaná umístění. Úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (například Azure HDInsight), které vaše datová továrna používá, můžou být v jiných umístěních a oblastech.

  7. Vyberte Vytvořit.

  8. Po vytvoření datové továrny se zobrazí domovská stránka datové továrny.

  9. Pokud chcete otevřít uživatelské rozhraní (UI) azure Data Factory na samostatné kartě, vyberte Otevřít na dlaždici Otevřít Azure Data Factory Studio :

    Domovská stránka služby Azure Data Factory s dlaždicí Open Azure Data Factory Studio

Vytvoření kanálu pomocí nástroje pro kopírování dat

  1. Na domovské stránce služby Azure Data Factory vyberte dlaždici Ingestování a otevřete nástroj Pro kopírování dat:

    Snímek obrazovky znázorňující domovskou stránku ADF

  2. Na stránce Vlastnosti proveďte následující kroky:

    1. V části Typ úkolu vyberte Předdefinovaný úkol kopírování.

    2. V části Tempo úkolu nebo plán úkolu vyberte Přeskakující okno.

    3. V části Opakování zadejte 15 minut.

    4. Vyberte Další.

    Stránka kopírovat vlastnosti dat

  3. Na stránce Zdrojové úložiště dat proveďte následující kroky:

    1. Pokud chcete přidat připojení, vyberte + Nové připojení .

    2. V galerii vyberte Azure Blob Storage a pak vyberte Pokračovat:

      Výběr služby Azure Blog Storage

    3. Na stránce Nové připojení (Azure Blob Storage) vyberte své předplatné Azure ze seznamu předplatných Azure a ze seznamu názvů účtů úložiště svůj účet úložiště. Otestujte připojení a pak vyberte Vytvořit.

    4. V bloku připojení vyberte nově vytvořené připojení.

    5. V části Soubor nebo složka vyberte Procházet a zvolte zdrojová složka a pak vyberte OK.

    6. V části Chování při načítání souboru vyberte Přírůstkové načtení: LastModifiedDate a zvolte Binární kopie.

    7. Vyberte Další.

    Snímek obrazovky znázorňující stránku Zdrojové úložiště dat

  4. Na stránce Cílové úložiště dat proveďte následující kroky:

    1. Vyberte připojení AzureBlobStorage, které jste vytvořili. Jedná se o stejný účet úložiště jako zdrojové úložiště dat.

    2. V části Cesta ke složce vyhledejte a vyberte cílovou složku a pak vyberte OK.

    3. Vyberte Další.

    Snímek obrazovky znázorňující stránku Cílové úložiště dat

  5. Na stránce Nastavení v části Název úlohy zadejte DeltaCopyFromBlobPipeline a pak vyberte Další. Data Factory vytvoří kanál se zadaným názvem úlohy.

    Snímek obrazovky se stránkou Nastavení

  6. Na stránce Souhrn zkontrolujte nastavení a pak vyberte Další.

    Stránka Souhrn

  7. Na stránce Nasazení vyberte Monitorovat a začněte monitorovat kanál (úlohu).

    Stránka Nasazení

  8. Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Aplikace se přepne na kartu Monitorování . Zobrazí se stav kanálu. Seznam můžete aktualizovat kliknutím na Aktualizovat. Výběrem odkazu v části Název kanálu zobrazte podrobnosti o spuštění aktivity nebo znovu spusťte kanál.

    Aktualizace seznamu a zobrazení podrobností o spuštění aktivity

  9. Kanál má jenom jednu aktivitu (aktivitu kopírování), takže uvidíte jenom jednu položku. Podrobnosti o operaci kopírování získáte tak, že na stránce Spuštění aktivity vyberete odkaz Podrobnosti (ikona brýle) ve sloupci Název aktivity. Podrobnosti o vlastnostech najdete v aktivita Copy přehledu.

    aktivita Copy v kanálu

    Vzhledem k tomu, že ve zdrojovém kontejneru v účtu úložiště blob nejsou žádné soubory, neuvidíte v účtu žádné soubory zkopírované do cílového kontejneru:

    Žádné soubory ve zdrojovém kontejneru nebo cílovém kontejneru

  10. Vytvořte prázdný textový soubor a pojmenujte ho file1.txt. Nahrajte tento textový soubor do zdrojového kontejneru ve vašem účtu úložiště. K provádění těchto úloh můžete použít různé nástroje, jako je Průzkumník služby Azure Storage.

    Vytvoření file1.txt a jeho nahrání do zdrojového kontejneru

  11. Pokud se chcete vrátit do zobrazení spuštění kanálu, vyberte v nabídce Popis cesty na stránce Spuštění aktivit odkaz Všechny spuštění kanálu a počkejte, až se stejný kanál automaticky aktivuje.

  12. Po dokončení druhého spuštění kanálu postupujte podle stejných kroků, které jsme zmínili dříve, a zkontrolujte podrobnosti o spuštění aktivity.

    Uvidíte, že se jeden soubor (file1.txt) zkopíroval ze zdrojového kontejneru do cílového kontejneru vašeho účtu blob storage:

    file1.txt se zkopírovaly ze zdrojového kontejneru do cílového kontejneru.

  13. Vytvořte další prázdný textový soubor a pojmenujte ho file2.txt. Nahrajte tento textový soubor do zdrojového kontejneru v účtu úložiště objektů blob.

  14. Opakujte kroky 11 a 12 pro druhý textový soubor. Uvidíte, že se během tohoto spuštění kanálu zkopíroval jenom nový soubor (file2.txt) ze zdrojového kontejneru do cílového kontejneru vašeho účtu úložiště.

    Pomocí Průzkumník služby Azure Storage můžete také ověřit, že se soubory zkopírovaly jenom v jednom souboru:

    Prohledávání souborů pomocí Průzkumník služby Azure Storage

V následujícím kurzu se dozvíte, jak transformovat data pomocí clusteru Apache Spark v Azure: