Sdílet prostřednictvím


Osvědčené postupy pro zápis do souborů v datovém jezeře pomocí toků dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Návod

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje vše od přenosu dat po datovou vědu, analýzy v reálném čase, business intelligence a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.

V tomto kurzu se seznámíte s osvědčenými postupy, které se dají použít při zápisu souborů do ADLS Gen2 nebo Azure Blob Storage pomocí toků dat. Ke čtení souboru parquet a následnému ukládání výsledků do složek budete potřebovat přístup k účtu služby Azure Blob Storage nebo účtu Azure Data Lake Store Gen2.

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
  • Účet služby Azure Storage. Úložiště ADLS používáte jako zdroj a cíl datových úložišť. Pokud účet úložiště nemáte, přečtěte si téma Vytvoření účtu služby Azure Storage, kde najdete postup jeho vytvoření.

Kroky v tomto návodu předpokládají, že máte

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a otevřete uživatelské rozhraní služby Data Factory, abyste vytvořili datový kanál v datové továrně.

  1. Otevřete Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte

  3. Na stránce Nová datová továrna v části Název zadejte ADFTutorialDataFactory.

  4. Vyberte předplatné Azure, v rámci kterého chcete datovou továrnu vytvořit.

  5. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.

    b) Vyberte Vytvořit novou a zadejte název skupiny prostředků. Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  6. Jako Verzi vyberte V2.

  7. V části Umístění vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočty (například Azure HDInsight) používané datovou továrnou můžou být v jiných oblastech.

  8. Vyberte Vytvořit.

  9. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Data Factory.

  10. Vyberte Autor & Monitor pro spuštění uživatelského rozhraní služby Data Factory na samostatné kartě.

Vytvořte potrubí s aktivitou toku dat

V tomto kroku vytvoříte kanál, který obsahuje aktivitu toku dat.

  1. Na domovské stránce služby Azure Data Factory vyberte Orchestrace.

    Snímek obrazovky znázorňující domovskou stránku datové továrny se zvýrazněným tlačítkem Orchestrate

  2. Na kartě Obecné pro kanál zadejte DeltaLake pro název kanálu.

  3. Na horním panelu továrny zapněte posuvník ladění toku dat. Režim ladění umožňuje interaktivní testování logiky transformace na živém clusteru Spark. Clustery Data Flow potřebují 5 až 7 minut k zahřátí a doporučuje se nejprve zapnout ladění, pokud uživatelé plánují vývoj na platformě Data Flow. Další informace naleznete v tématu Režim ladění.

    Aktivita Tok dat

  4. V podokně Aktivity rozbalte sekci Přesunout a transformovat. Přetáhněte aktivitu Tok dat z podokna na plátno kanálu.

    Snímek obrazovky znázorňující plátno potrubí, kde můžete vložit aktivitu toky dat.

Vytvořte logiku transformace na ploše datového toku

Použijete všechna zdrojová data (v tomto kurzu použijeme zdroj souborů Parquet) a pomocí výstupní transformace uložíte data ve formátu Parquet pomocí nejúčinnějších mechanismů pro ETL v datovém jezeru.

Konečný tok

Cíle kurzu

  1. Zvolte některou ze zdrojových datových sad v novém toku dat 1. Efektivní rozdělení datové sady jímky pomocí toků dat
  2. Umístěte svá dělená data do složek jezera ADLS Gen2

Začínáme z prázdného plátna toku dat

Nejprve nastavíme prostředí toku dat pro každý z níže popsaných mechanismů pro cílová data v ADLS Gen2.

  1. Klikněte na zdrojovou transformaci.
  2. Klikněte na nové tlačítko vedle datové sady v dolním panelu.
  3. Zvolte datovou sadu nebo vytvořte novou. Pro tuto ukázku použijeme datovou sadu Parquet s názvem Uživatelská data.
  4. Přidání transformace odvozeného sloupce Použijeme ho jako způsob dynamického nastavení požadovaných názvů složek.
  5. Přidejte transformaci jímky.

Výstup hierarchické složky

Je velmi běžné použít jedinečné hodnoty k vytvoření hierarchií složek a rozdělení dat v jezeře. Jedná se o velmi optimální způsob, jak uspořádat a zpracovávat data v jezeře a ve Sparku (výpočetní modul za toky dat). Nicméně, uspořádání výstupu tímto způsobem bude znamenat malý kompromis ve výkonu. Očekáváme, že se při použití tohoto mechanismu v jímce zobrazí malý pokles celkového výkonu kanálu.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci dřezu.
  2. Klikněte na Optimalizovat > Nastavit dělení > Klíč
  3. Vyberte sloupce, které chcete použít k nastavení struktury hierarchických složek.
  4. Všimněte si, že následující příklad používá jako sloupce pro pojmenování složek rok a měsíc. Výsledky budou složky formuláře releaseyear=1990/month=8.
  5. Při přístupu k datovým oddílům ve zdroji toku dat budete odkazovat pouze na složku nejvyšší úrovně výše releaseyear a pro každou další složku použijete zástupný znak, například: **/**/*.parquet
  6. Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.

Dělení klíčů

Název složky jako datové hodnoty

Mírně lepší technika ukládání dat do jezera s využitím ADLS Gen2, která nenabízí stejnou výhodu jako dělení na klíče a hodnoty, je Name folder as column data. Zatímco klíčový styl dělení hierarchické struktury vám umožní snadněji zpracovávat části dat, tato technika je plošší strukturou složek, která dokáže rychleji zapisovat data.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci dřezu.
  2. Klepněte na Optimalizovat > nastavit dělení > Použijte aktuální dělení.
  3. Klikněte na Nastavení > Pojmenujte složku jako údaje ve sloupci.
  4. Vyberte sloupec, který chcete použít ke generování názvů složek.
  5. Pokud chcete manipulovat s datovými hodnotami nebo i v případě, že potřebujete vygenerovat syntetické hodnoty pro názvy složek, vytvořte pomocí transformace Odvozený sloupec hodnoty, které chcete použít v názvech složek.

Možnost složky

Pojmenujte soubor podle datových hodnot

Techniky uvedené v předchozích kurzech jsou vhodné případy použití pro vytváření kategorií složek ve vašem datovém jezeře. Výchozím schématem pojmenování souborů, které tyto techniky používají, je použití ID úlohy Exekutoru Sparku. Někdy můžete chtít nastavit název výstupního souboru v textové jímce toku dat. Tato technika se navrhuje jenom pro použití s malými soubory. Proces sloučení souborů oddílů do jednoho výstupního souboru je dlouhotrvající proces.

  1. Vraťte se do návrháře toku dat a upravte tok dat, který vytvoříte výše. Klikněte na transformaci dřezu.
  2. Klepněte na tlačítko Optimalizovat > nastavení dělení > Jeden oddíl. Jedná se o požadavek na jeden oddíl, který při slučování souborů vytváří kritický bod v procesu provádění. Tato možnost se doporučuje jenom pro malé soubory.
  3. Klikněte na Nastavení > Pojmenujte soubor jako data sloupce.
  4. Vyberte sloupec, který chcete použít ke generování názvů souborů.
  5. Pokud chcete manipulovat s datovými hodnotami, nebo i když potřebujete vygenerovat syntetické hodnoty pro názvy souborů, vytvořte pomocí transformace odvozeného sloupce hodnoty, které chcete použít v názvech souborů.

Přečtěte si další informace o jímkách toku dat.