Zdieľať cez


Rýchla konfigurácia: Premiestnenie a transformácia údajov pomocou tokov údajov a kanálov údajov

V tomto kurze zistíte, ako môže prostredie toku údajov a kanála údajov vytvoriť výkonné a komplexné riešenie služby Data Factory.

Predpoklady

Na začiatok musíte mať nasledujúce predpoklady:

Toky údajov v porovnaní s kanálmi

Toky údajov Gen2 vám umožňujú využívať rozhranie s minimálnym použitím kódu a 300 transformácií údajov a transformácií založených na umelej inteligencii, ktoré vám umožnia jednoducho čistiť, pripravovať a transformovať údaje s väčšou flexibilitou ako ktorýkoľvek iný nástroj. Kanály údajov umožňujú komplexné preddeľovacie funkcie prípravy údajov na vytváranie flexibilných pracovných postupov údajov, ktoré spĺňajú vaše podnikové potreby. V kanáli môžete vytvárať logické zoskupenia aktivít, ktoré vykonávajú úlohu, medzi ktoré môže patriť volanie toku údajov na vyčistenie a prípravu údajov. Hoci sa niektoré funkcie prekrývajú medzi týmito dvoma funkciami, výber, ktorý sa má použiť pre konkrétny scenár, závisí od toho, či budete potrebovať úplné bohatstvo kanálov alebo môžete použiť jednoduchšie, ale obmedzenejšie možnosti tokov údajov. Ďalšie podrobnosti nájdete v príručke k rozhodnutiu pre fabric

Transformácia údajov pomocou tokov údajov

Ak chcete nastaviť tok údajov, postupujte podľa týchto krokov.

Krok č. 1: Vytvorenie toku údajov

  1. Vyberte pracovný priestor povolený v službe Fabric a potom vyberte položku Nový. Potom vyberte položku Tok údajov Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Zobrazí sa okno editora toku údajov. Vyberte kartu Importovať z SQL Servera.

    Screenshot showing the dataflow editor window.

Krok č. 2: Získanie údajov

  1. V dialógovom okne Pripojenie k zdroju údajov zadajte podrobnosti, aby ste sa pripojili k databáze Azure SQL, a potom vyberte položku Ďalej. V tomto príklade použijete vzorová databáza AdventureWorksLT nakonfigurovanú pri nastavovaní databázy Azure SQL v nevyhnutných predpokladoch.

    Screenshot showing how to connect to an Azure SQL database.

  2. Vyberte údaje, ktoré chcete transformovať, a potom vyberte položku Vytvoriť. V tomto stručnom úvode vyberte položku SalesLT.Customer zo vzorových údajov AdventureWorksLT poskytnutých pre databázu Azure SQL a potom tlačidlo Vybrať súvisiace tabuľky, ktoré automaticky zahrnie dve ďalšie súvisiace tabuľky.

    Screenshot showing where to choose from the available data.

Krok č. 3: Transformácia údajov

  1. Ak nie je vybratá, vyberte tlačidlo Zobrazenie diagramu v stavovom riadku v dolnej časti stránky alebo vyberte položku Zobrazenie diagramu v ponuke Zobraziť v hornej časti editora Power Query. Pomocou niektorej z týchto možností môžete prepínať zobrazenie diagramu.

    Screenshot showing where to select diagram view.

  2. Kliknite pravým tlačidlom myši na dotaz SalesLT Customer alebo vyberte zvislé tri bodky na pravej strane dotazu a potom vyberte položku Zlúčiť dotazy.

    Screenshot showing where to find the Merge queries option.

  3. Zlúčenie nakonfigurujte tak, že ako pravú tabuľku na zlúčenie vyberiete tabuľku SalesLTOrderHeader , stĺpec CustomerID z každej tabuľky ako stĺpec spojenia a ľavý vonkajší ako druh spojenia. Potom výberom položky OK pridajte zlučovací dotaz.

    Screenshot of the Merge configuration screen.

  4. Vyberte tlačidlo Pridať cieľové umiestnenie údajov, ktoré z vytvoreného nového zlučovacieho dotazu vyzerá ako symbol databázy so šípkou nad ním. Potom ako typ cieľa vyberte databázu Azure SQL.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Zadajte podrobnosti pre pripojenie k databáze Azure SQL, v ktorej sa má zlučovací dotaz publikovať. V tomto príklade môžete použiť aj databázu AdventureWorksLT , ktorú sme použili ako zdroj údajov pre cieľ.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Vyberte databázu na uloženie údajov a zadajte názov tabuľky, potom vyberte položku Ďalej.

    Screenshot showing the Choose destination target window.

  7. Predvolené nastavenia môžete nechať v dialógovom okne Vybrať cieľové nastavenia a jednoducho vybrať položku Uložiť nastavenia bez toho, aby ste tu vykonajte zmeny.

    Screenshot showing the Choose destination settings dialog.

  8. Na stránke editora toku údajov vyberte položku Publikovať späť a publikujte tok údajov.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Premiestnenie údajov pomocou kanálov údajov

Teraz, keď ste vytvorili tok údajov Gen2, môžete s ním pracovať v kanáli. V tomto príklade skopírujete údaje vygenerované z toku údajov do textového formátu v konte ukladacieho priestoru objektu BLOB platformy Azure.

Krok č. 1: Vytvorenie nového kanála údajov

  1. V pracovnom priestore vyberte položku Nové a potom položku Kanál údajov.

    Screenshot showing where to start a new data pipeline.

  2. Pomenujte kanál a potom vyberte položku Vytvoriť.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Krok č. 2: Konfigurácia toku údajov

  1. Výberom položky Tok údajov na karte Aktivity pridajte do svojho kanála údajov novú aktivitu toku údajov.

    Screenshot showing where to select the Dataflow option.

  2. Vyberte tok údajov na plátne kanála a potom kartu Nastavenia. Z rozbaľovacieho zoznamu vyberte tok údajov, ktorý ste vytvorili predtým.

    Screenshot showing how to choose the dataflow you created.

  3. Vyberte položku Uložiť a potom spustením toku údajov najskôr vyplňte zlúčenú tabuľku dotazov, ktorú ste navrhli v predchádzajúcom kroku.

    Screenshot showing where to select Run.

Krok č. 3: Pridanie aktivity kopírovania pomocou asistenta kopírovania

  1. Začnite výberom položky Kopírovať údaje na plátne a otvorte nástroj Kopírovať asistenta . Alebo vyberte položku Použiť asistenta kopírovania z rozbaľovacieho zoznamu Kopírovať údaje na karte Aktivity na páse s nástrojmi.

    Screenshot showing the two ways to access the copy assistant.

  2. Výberom typu zdroja údajov vyberte zdroj údajov. V tomto kurze použijete databázu Azure SQL, ktorá sa používala predtým pri vytváraní toku údajov na generovanie nového zlučovacieho dotazu. Posuňte sa nadol pod ponukou vzorových údajov a vyberte kartu Azure a potom položku Databáza Azure SQL. Pokračujte výberom položky Ďalej .

    Screenshot showing where to choose a data source.

  3. Výberom položky Vytvoriť nové pripojenie vytvorte pripojenie k zdroju údajov. Vyplňte požadované informácie o pripojení na paneli a zadajte AdventureWorksLT pre databázu, v ktorej sme vygenerovali zlučovací dotaz v toku údajov. Potom vyberte Ďalej.

    Screenshot showing where to create a new connection.

  4. Vyberte tabuľku, ktorú ste vygenerovali v kroku toku údajov predtým, a potom vyberte položku Ďalej.

    Screenshot showing how to select from available tables.

  5. Pre svoj cieľ vyberte položku Azure Blob Storage a potom vyberte položku Ďalej.

    Screenshot showing the Azure Blob Storage data destination.

  6. Výberom položky Vytvoriť nové pripojenie vytvorte pripojenie do cieľa. Zadajte podrobnosti o pripojení a potom vyberte položku Ďalej.

    Screenshot showing how to create a connection.

  7. Vyberte cestu k priečinku a zadajte názov súboru, potom vyberte položku Ďalej.

    Screenshot showing how to select folder path and file name.

  8. Opätovným výberom položky Ďalej akceptujete predvolený formát súboru, oddeľovač stĺpcov, oddeľovač riadkov a typ kompresie vrátane hlavičky.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalizujte nastavenia. Potom proces dokončite výberom položky Uložiť a spustiť .

    Screenshot showing how to review copy data settings.

Krok č. 5: Návrh údajového kanála a uloženie na spustenie a načítanie údajov

  1. Ak chcete spustiť aktivitu Kopírovať po aktivite toku údajov, presuňte položku Úspešné v aktivite toku údajov do aktivity Kopírovať . Aktivita kopírovania sa spustí až po úspešnej aktivite toku údajov.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Ak chcete kanál údajov uložiť, vyberte položku Uložiť . Potom vyberte položku Spustiť , aby sa spustil váš údajový kanál a načítali sa údaje.

    Screenshot showing where to select Save and Run.

Naplánovanie spustenia kanála

Keď dokončíte vývoj a testovanie kanála, môžete naplánovať jeho automatické spustenie.

  1. Na karte Domov v okne editora kanála vyberte položku Plán.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Podľa potreby nakonfigurujte plán. V tomto príklade sa kanál vykonáva denne o 20:00 až do konca roka.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

V tejto ukážke sa dozviete, ako vytvoriť a nakonfigurovať tok údajov Gen2 na vytvorenie zlučovacieho dotazu a jeho uloženie do databázy Azure SQL. Potom skopírujte údaje z databázy do textového súboru v službe Azure Blob Storage. Naučili ste sa:

  • Vytvorte tok údajov.
  • Transformovať údaje pomocou toku údajov.
  • Vytvorte kanál údajov pomocou toku údajov.
  • Zoradte vykonanie krokov v kanáli.
  • Kopírovanie údajov pomocou Copy Assistant (Kopírovať asistenta).
  • Spustite a naplánujte svoj údajový kanál.

V ďalšom kroku sa dozviete viac o monitorovaní spustení kanála.