Sdílet prostřednictvím


Nástroj pro kopírování dat ve službě Azure Data Factory a Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přenosu dat až po analýzy v reálném čase, datovou vědu, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Nástroj Pro kopírování dat usnadňuje a optimalizuje proces ingestování dat do datového jezera, což je obvykle první krok v komplexním scénáři integrace dat. Šetří čas, zejména když službu používáte k ingestování dat ze zdroje dat poprvé. Mezi výhody použití tohoto nástroje patří:

  • Při použití nástroje pro kopírování dat nepotřebujete rozumět definicím služby pro propojené služby, datové sady, kanály, aktivity a triggery.
  • Tok nástroje Copy Data je intuitivní pro načítání dat do datového jezera. Nástroj automaticky vytvoří všechny potřebné prostředky pro kopírování dat z vybraného zdrojového úložiště dat do vybraného cílového úložiště dat nebo úložiště dat jímky.
  • Nástroj pro kopírování dat vám pomůže ověřit data, která jsou zasílána v době jeho vytváření, což vám pomůže vyhnout se případným chybám už na začátku.
  • Pokud potřebujete implementovat složitou obchodní logiku pro načtení dat do datového jezera, můžete prostředky vytvořené nástrojem pro kopírování dat upravit pomocí vytváření jednotlivých aktivit v uživatelském rozhraní.

Následující tabulka obsahuje pokyny, kdy použít nástroj pro kopírování dat oproti vytváření jednotlivých aktivit v uživatelském rozhraní.

Nástroj pro kopírování dat Vytváření obsahu podle aktivity (aktivita Copy)
Chcete snadno vytvořit úlohu načítání dat bez informací o entitách (propojené služby, datové sady, kanály atd.). Chcete implementovat složitou a flexibilní logiku pro načítání dat do jezera.
Chcete rychle načíst velký počet datových objektů do datového jezera. Chcete zřetězit tu aktivitu Copy s následnými aktivitami pro čištění nebo zpracování dat.

Pokud chcete spustit nástroj pro kopírování dat, vyberte dlaždici Ingest na domovské stránce uživatelského rozhraní Data Factory nebo Synapse Studio.

Po spuštění nástroje pro kopírování dat uvidíte dva typy úloh: jedna je integrovaná úloha kopírování a druhá je úloha kopírování řízená metadaty. Vestavěná úloha kopírování vám umožní vytvořit kanál do pěti minut a replikovat data, aniž byste se museli učit o entitách. Úloha kopírování řízená metadaty usnadňují vaši cestu vytváření parametrizovaných kanálů a tabulek externích ovládacích prvků za účelem správy kopírování velkých objemů objektů (například tisíců tabulek) ve velkém měřítku. Další podrobnosti najdete v kopírování dat řízeném metadaty.

Intuitivní tok pro načítání dat do datového jezera

Tento nástroj umožňuje snadno přesouvat data z nejrůznějších zdrojů do cílů během několika minut pomocí intuitivního toku:

  1. Nakonfigurujte nastavení pro zdroj.

  2. Nakonfigurujte nastavení cíle.

  3. Nakonfigurujte upřesňující nastavení pro operaci kopírování, jako je mapování sloupců, nastavení výkonu a nastavení odolnosti proti chybám.

  4. Zadejte plán úlohy načítání dat.

  5. Zkontrolujte souhrn entit, které se mají vytvořit.

  6. Podle potřeby upravte kanál a aktualizujte nastavení aktivity kopírování.

    Nástroj je navržený s ohledem na velké objemy dat od začátku s podporou různých typů dat a objektů. Můžete ho použít k přesunutí stovek složek, souborů nebo tabulek. Nástroj podporuje také automatické zobrazení náhledu dat, zachycení schématu a automatické mapování a filtrování dat.

Nástroj pro kopírování dat

Automatický náhled dat

Můžete zobrazit náhled části dat z vybraného zdrojového úložiště dat, což umožňuje ověřit data, která se kopírují. Kromě toho pokud jsou zdrojová data v textovém souboru, nástroj Pro kopírování dat analyzuje textový soubor, aby automaticky rozpoznal oddělovače řádků a sloupců a schéma.

Nastavení souboru

Po zjištění vyberte možnost náhled dat:

Zjištěná nastavení souborů a náhled

Zachycení schématu a automatické mapování

Schéma zdroje dat nemusí být v mnoha případech stejné jako schéma cíle dat. V tomto scénáři je potřeba namapovat sloupce ze zdrojového schématu na sloupce z cílového schématu.

Nástroj pro kopírování dat monitoruje a učí vaše chování při mapování sloupců mezi zdrojovými a cílovými úložišti. Jakmile vyberete jeden nebo několik sloupců ze zdrojového úložiště dat a namapujete je na cílové schéma, nástroj Pro kopírování dat začne analyzovat vzor pro páry sloupců, které jste vybrali z obou stran. Potom použije stejný vzor pro zbytek sloupců. Protože vidíte, že všechny sloupce byly přiřazeny k cíli způsobem, který chcete, během několika kliknutí. Pokud nejste spokojení s výběrem mapování sloupců, které poskytuje nástroj Pro kopírování dat, můžete ho ignorovat a pokračovat ručním mapováním sloupců. Nástroj Pro kopírování dat mezitím neustále učí a aktualizuje vzor a nakonec dosáhne správného vzoru pro mapování sloupců, kterého chcete dosáhnout.

Poznámka:

Při kopírování dat z SQL Serveru nebo Azure SQL Database do Azure Synapse Analytics platí, že pokud tabulka v cílovém úložišti neexistuje, nástroj Pro kopírování dat podporuje automatické vytvoření tabulky pomocí zdrojového schématu.

Filtrování dat

Zdrojová data můžete filtrovat a vybrat jenom data, která je potřeba zkopírovat do úložiště dat jímky. Filtrování snižuje objem dat, která se mají zkopírovat do úložiště dat jímky, a tím zvyšuje propustnost operace kopírování. Nástroj pro kopírování dat poskytuje flexibilní způsob filtrování dat v relační databázi pomocí dotazovacího jazyka SQL nebo souborů ve složce objektů blob Azure.

Filtrování dat v databázi

Následující snímek obrazovky ukazuje dotaz SQL pro filtrování dat.

Filtrování dat v databázi

Filtrování dat ve složce objektů blob Azure

Pomocí proměnných v cestě ke složce můžete kopírovat data ze složky. Podporované proměnné jsou: {year}, {month}, {day}, {hour} a {minute}. Příklad: inputfolder/{year}/{month}/{day}.

Předpokládejme, že máte vstupní složky v následujícím formátu:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Vyberte tlačítko Procházet pro soubor nebo složku, přejděte do jedné z těchto složek (například 2016-03-01-02>>>) a vyberte Zvolit. V textovém poli by se mělo zobrazit 2016/03/01/02.

Potom nahraďte 2016{year}, 03 { month}, 01 { day} a 02 { hour} a stiskněte klávesu Tab . Když vyberete přírůstkové načtení: názvy složek/souborů rozdělených do oddílů v části Chování načítání souborů a na stránce Vlastnosti vyberete Naplánovat nebo Posuvné okno, měli byste vidět rozevírací seznamy pro výběr formátu těchto čtyř proměnných:

Filtrování souboru nebo složky

Nástroj pro kopírování dat generuje parametry s výrazy, funkcemi a systémovými proměnnými, které lze použít k reprezentaci {year}, {month}, {day}, {hour} a {minute} při vytváření datového potrubí.

Možnosti plánování

Operaci kopírování můžete spustit jednou nebo podle plánu (hodinově, denně atd.). Tyto možnosti je možné použít pro konektory v různých prostředích, včetně místních, cloudových a místních desktopů.

Jednorázová operace kopírování umožňuje přesun dat ze zdroje do cíle pouze jednou. Platí pro data libovolné velikosti a libovolného podporovaného formátu. Naplánovaná kopie umožňuje kopírovat data při zadaném opakování. Ke konfiguraci plánované kopie můžete použít bohatá nastavení (například opakování, vypršení časového limitu a upozornění).

Možnosti plánování

Vyzkoušejte tyto kurzy, které používají nástroj pro kopírování dat: