Sdílet prostřednictvím


Kopírování dat pomocí aktivity kopírování

V kanálovém procesu můžete použít aktivitu kopírování pro přenos dat mezi úložišti dat v cloudu. Po zkopírování dat můžete pomocí dalších aktivit v potrubí transformovat a analyzovat je.

Aktivita kopírování se připojuje ke zdrojům a cílům dat a pak mezi nimi efektivně přesouvá data. Tady je postup, jak služba zpracovává proces kopírování:

  1. Připojí se k vašemu zdroji: Vytvoří zabezpečené připojení ke čtení dat ze zdrojového úložiště dat.
  2. Zpracovává data: Zpracovává serializaci/deserializaci, kompresi/dekompresi, mapování sloupců a převody datových typů na základě vaší konfigurace.
  3. Přenos do cílového úložiště: Přenáší zpracovaná data do vašeho cílového úložiště dat.
  4. Poskytuje monitorování: Sleduje operaci kopírování a poskytuje podrobné protokoly a metriky pro řešení potíží a optimalizaci.

Tip

Pokud potřebujete jenom zkopírovat data a nepotřebujete transformace, může být pro vás úloha kopírování lepší volbou. Úlohy kopírování poskytují jednodušší způsob přesunu dat, aniž by bylo nutné vytvořit celý pipeline. Viz: Přehled úloh kopírování nebo použití naší rozhodovací tabulky k porovnání aktivity kopírování a úlohy kopírování.

Prerequisites

Abyste mohli začít, musíte splnit tyto požadavky:

  • Účet tenanta Microsoft Fabric s aktivním předplatným. Vytvoření účtu zdarma
  • Pracovní prostor s povolenou službou Microsoft Fabric

Přidání aktivity kopírování pomocí pomocníka pro kopírování

Podle těchto kroků nastavte aktivitu kopírování pomocí pomocníka pro kopírování.

Začínáme s pomocníkem pro kopírování

  1. Otevřete existující kanál nebo vytvořte nový kanál.

  2. Začněte tím, že vyberete Kopírovat data na plátně a otevřete nástroj Copy Assistant . Nebo v rozevíracím seznamu Kopírovat data napásu karet vyberte Použít pomocníka pro kopírování dat.

    Snímek obrazovky s možnostmi otevření pomocníka pro kopírování

Konfigurace zdroje

  1. Vyberte typ zdroje dat z kategorie. Jako příklad použijete Azure Blob Storage. Vyberte Azure Blob Storage.

    Snímek obrazovky s možností Zvolit zdroj dat

  2. Výběrem možnosti Vytvořit nové připojení vytvořte připojení ke zdroji dat.

    Snímek obrazovky znázorňující, kde vybrat Nové připojení

    Po výběru možnosti Vytvořit nové připojení vyplňte požadované informace o připojení a pak vyberte Další. Podrobnosti o vytvoření připojení pro každý typ zdroje dat najdete v jednotlivých článcích o konektoru.

    Pokud už máte připojení, můžete vybrat Existující připojení a v rozevíracím seznamu vybrat připojení.

    Snímek obrazovky znázorňující existující připojení

  3. Zvolte soubor nebo složku, které chcete zkopírovat v tomto kroku konfigurace zdroje, a pak vyberte Další.

    Snímek obrazovky znázorňující, kde vybrat data, která se mají zkopírovat

Konfigurace cíle

  1. Vyberte typ zdroje dat z kategorie. Jako příklad použijete Azure Blob Storage. Můžete vytvořit nové připojení, které odkazuje na nový účet služby Azure Blob Storage, a to pomocí kroků v předchozí části, nebo použít existující připojení z rozevíracího seznamu připojení. Pro každé vybrané připojení jsou k dispozici možnosti Test připojení a Upravit .

    Snímek obrazovky znázorňující výběr služby Azure Blob Storage

  2. Nakonfigurujte a namapujte zdrojová data na cíl. Potom výběrem možnosti Další dokončete konfiguraci cíle.

    Snímek obrazovky Mapy na cílovou obrazovku

    Snímek obrazovky s cílem připojení k datům

    Note

    Ve stejné aktivita Copy můžete použít jenom jednu místní bránu dat. Pokud jsou zdrojem i jímkou místní zdroje dat, musí použít stejnou bránu. Pokud chcete přesouvat data mezi místními zdroji dat s různými bránami, musíte použít první bránu ke zkopírování do zprostředkujícího cloudového zdroje v jedné aktivitě kopírování. Potom můžete pomocí jiného aktivita Copy zkopírovat zprostředkujícího cloudového zdroje pomocí druhé brány.

Kontrola a vytvoření aktivity kopírování

  1. Zkontrolujte nastavení aktivity kopírování v předchozích krocích a kliknutím na TLAČÍTKO OK dokončete. Nebo se můžete vrátit k předchozím krokům a upravit nastavení v případě potřeby v nástroji.

    Snímek obrazovky znázorňující obrazovku Zkontrolovat a vytvořit

Po dokončení se aktivita kopírování přidá na plátno potrubí. Všechna nastavení, včetně upřesňujících nastavení pro tuto aktivitu kopírování, jsou při výběru dostupná na kartách.

Snímek obrazovky zobrazuje operaci kopírování na plátně potrubí

Teď můžete buď uložit svůj datový tok pomocí této samotné kopírovací aktivity, nebo pokračovat v jeho návrhu.

Přímé přidání aktivity kopírování

Pokud chcete aktivitu kopírování přidat přímo, postupujte podle těchto kroků.

Přidání aktivity kopírování

  1. Otevřete existující kanál nebo vytvořte nový kanál.

  2. Aktivitu kopírování můžete přidat výběrem možnosti Přidat aktivitu> kanálu aktivita Copy nebo výběrem možnosti Kopírovat data>přidat na plátno na kartě Aktivity.

    Snímek obrazovky znázorňující dva způsoby přidání aktivity kopírování

Konfigurace obecných nastavení na kartě Obecné

Informace o konfiguraci obecných nastavení najdete v tématu Obecné.

Konfigurace zdroje na kartě Zdroj

  1. V části Připojení vyberte existující připojení nebo vyberte Další a vytvořte nové připojení.

    Snímek obrazovky znázorňující, kde vybrat Nový

    1. V automaticky otevíraných otevíraných oknech zvolte typ zdroje dat. Jako příklad použijete Azure SQL Database. Vyberte Azure SQL Database a pak vyberte Pokračovat.

      Snímek obrazovky znázorňující, jak vybrat zdroj dat

    2. Přejde na stránku pro vytvoření připojení. Na panelu vyplňte požadované informace o připojení a pak vyberte Vytvořit. Podrobnosti o vytvoření připojení pro každý typ zdroje dat najdete v jednotlivých článcích o konektoru.

      Snímek obrazovky zobrazující novou stránku připojení

    3. Po vytvoření připojení se vrátíte na stránku pipeline. Potom vyberte Aktualizovat a z rozevíracího seznamu získáte připojení, které jste vytvořili. Existující připojení ke službě Azure SQL Database můžete také zvolit přímo v rozevíracím seznamu, pokud jste ho už vytvořili. Pro každé vybrané připojení jsou k dispozici možnosti Test připojení a Upravit . Pak vyberte Azure SQL Database v typu připojení .

  2. Zadejte tabulku, která se má zkopírovat. Výběrem možnosti Náhled dat zobrazíte náhled zdrojové tabulky. Ke čtení dat ze zdroje můžete použít také dotaz a uloženou proceduru.

  3. Rozbalte Pokročilá nastavení pro další pokročilé možnosti, jako je vypršení časového limitu dotazu nebo dělení. (Upřesňující nastavení se liší podle konektoru.)

Konfigurace cíle na kartě Cíl

  1. V části Připojení vyberte existující připojení nebo vyberte Další a vytvořte nové připojení. Může to být interní úložiště dat první třídy z vašeho pracovního prostoru, například Lakehouse, nebo externí úložiště dat. V tomto příkladu používáme Lakehouse.

  2. Po vytvoření připojení se vrátíte na stránku pipeline. Potom vyberte Aktualizovat a z rozevíracího seznamu získáte připojení, které jste vytvořili. Existující připojení Lakehouse můžete také zvolit přímo v rozevíracím seznamu, pokud jste ho už vytvořili.

  3. Zadejte tabulku nebo nastavte cestu k souboru pro definování souboru nebo složky jako cíle. Tady vyberte Tabulky a zadejte tabulku pro zápis dat.

  4. Rozbalením Upřesnit zobrazíte pokročilá nastavení, například maximální počet řádků na soubor nebo akci tabulky. (Upřesňující nastavení se liší podle konektoru.)

Teď můžete buď uložit svůj datový tok s touto aktivitou kopírování, nebo pokračovat v jeho návrhu.

Konfigurace mapování na kartě mapování

Pokud konektor, který používáte, podporuje mapování, můžete přejít na kartu Mapování a nakonfigurovat mapování.

  1. Vyberte Importovat schémata pro import schématu dat.

    Snímek obrazovky s nastavením mapování 1

  2. Zobrazí se automatické mapování. Zadejte sloupec Zdroj a Cílový sloupec. Pokud v cíli vytvoříte novou tabulku, můžete zde přizpůsobit název cílového sloupce. Pokud chcete zapisovat data do existující cílové tabulky, nemůžete změnit název existujícího cílového sloupce. Můžete také zobrazit typ zdrojového a cílového sloupce.

    Snímek obrazovky s nastavením mapování 2

Můžete také vybrat + Nové mapování přidat nové mapování, výběrem možnosti Vymazat vymazat všechna nastavení mapování a výběrem možnosti Obnovit obnovit všechny sloupce zdroj mapování.

Další informace o mapování datových typů najdete v tématu Mapování datových typů v aktivitě kopírování.

Konfigurace dalších nastavení na kartě Nastavení

Karta Nastavení obsahuje nastavení výkonu, přípravy atd.

Snímek obrazovky s kartou Nastavení

Popis jednotlivých nastavení najdete v následující tabulce.

Setting Description Vlastnost skriptu JSON
Optimalizace inteligentní propustnosti Určete, jak optimalizovat propustnost. Můžete si vybrat z:
Automaticky
Standardní
Vyvážená
Maximum

Když zvolíte Možnost Automaticky, optimální nastavení se dynamicky použije na základě vašeho páru a vzoru dat cíle zdroje. Propustnost můžete také přizpůsobit a vlastní hodnota může být 2–256, zatímco vyšší hodnota znamená další zisky.
dataIntegrationUnits
Stupeň paralelismu kopírování Zadejte stupeň paralelismu, který by načítání dat používalo. parallelCopies
Odolnost proti chybám Když vyberete tuto možnost, můžete ignorovat některé chyby, ke kterým dochází uprostřed procesu kopírování. Například nekompatibilní řádky mezi zdrojovým a cílovým úložištěm, odstraněním souboru během přesunu dat atd. • PovolitPřeskočitNekompatibilníŘádek
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Povolení protokolování Když vyberete tuto možnost, můžete protokolovat zkopírované soubory, přeskočeny soubory a řádky. /
Povolení přípravy Určete, zda se mají kopírovat data prostřednictvím dočasného přípravného úložiště. Povolte testování jen pro užitečné scénáře. enableStaging
Pro pracovní prostor
Workspace Určete, že se má použít předdefinované přípravné úložiště. /
Pro externí
Připojení k pracovnímu účtu Zadejte připojení služby Azure Blob Storage nebo Azure Data Lake Storage Gen2, která odkazuje na instanci služby Storage, kterou používáte jako dočasné pracovní úložiště. Pokud ho nemáte, vytvořte přípravné připojení. připojení (v části externalReferences)
Cesta k úložišti Zadejte cestu, kterou chcete obsahovat fázovaná data. Pokud cestu nezadáte, služba vytvoří kontejner pro ukládání dočasných dat. Zadejte cestu pouze v případě, že používáte Storage se sdíleným přístupovým podpisem nebo potřebujete, aby dočasná data byla v určitém umístění. cesta
Povolení komprese Určuje, jestli se mají data před zkopírováním do cíle komprimovat. Toto nastavení snižuje objem přenášených dat. enableCompression
Preserve Určete, jestli se mají během kopírování dat zachovat metadata nebo seznamy ACL. preserve

Note

Pokud použijete fázovanou kopii s povolenou kompresí, ověřování instančního objektu pro přípravné připojení objektů blob se nepodporuje.

Konfigurace parametrů v aktivitě kopírování

Parametry lze použít k řízení chování kanálu a jeho aktivit. Pomocí možnosti Přidat dynamický obsah můžete zadat parametry vlastností aktivity kopírování. Pojďme jako příklad určit Lakehouse nebo Data Warehouse, abychom viděli, jak ho používat.

  1. Ve zdroji nebo cíli vyberte v rozevíracím seznamu Připojenímožnost Použít dynamický obsah.

  2. V automaticky otevírané nabídce Přidat dynamický obsah na kartě Parametry vyberte +.

    Snímek obrazovky se stránkou Přidat dynamický obsah

  3. Zadejte název parametru a v případě potřeby ho zadejte jako výchozí hodnotu, nebo můžete zadat hodnotu parametru, když se aktivuje v kanálu.

    Snímek obrazovky znázorňující vytvoření nového parametru

    Hodnota parametru by měla být ID připojení Lakehouse/Data Warehouse. Pokud ho chcete získat, otevřete spravovat připojení a brány, zvolte připojení Lakehouse/Data Warehouse, které chcete použít, a otevřete Nastavení , abyste získali ID připojení. Pokud chcete vytvořit nové připojení, můžete na této stránce vybrat + Nový nebo přejít na datovou stránku prostřednictvím rozevíracího seznamu Připojení .

  4. Výběrem možnosti Uložit se vrátíte do podokna Přidat dynamický obsah . Pak vyberte parametr, aby se zobrazil v poli výrazu. Pak vyberte OK. Vrátíte se na stránku kanálu a uvidíte, že se výraz parametru zadává po připojení.

    Snímek obrazovky znázorňující výběr parametru

  5. Zadejte ID vašeho lakehouse nebo datového skladu. ID najdete tak, že přejdete do vašeho lakehouse nebo datového skladu v pracovním prostoru. ID se zobrazí v adrese URL za /lakehouses/ nebo /datawarehouses/.

    • ID lakehouse:

      Snímek obrazovky znázorňující ID objektu Lakehouse

    • ID skladu:

      Snímek obrazovky znázorňující ID objektu datového skladu

  6. Zadejte připojovací řetězec SQL pro váš datový sklad.