Integrace dat pomocí Služby Azure Data Factory a Služby Azure Data Share

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Vzhledem k tomu, že se zákazníci pustí do svých moderních projektů datových skladů a analýz, vyžadují nejen více dat, ale také lepší přehled o svých datech napříč jejich datovými aktivy. V tomto workshopu se dozvíte, jak vylepšení služby Azure Data Factory a služby Azure Data Share zjednodušují integraci a správu dat v Azure.

Od povolení etl/ELT bez kódu k vytvoření komplexního zobrazení dat, vylepšení ve službě Azure Data Factory umožňují datovým inženýrům s jistotou přinést více dat a tím větší hodnotu pro váš podnik. Azure Data Share umožňuje provádět obchodní sdílení řízeným způsobem.

V tomto workshopu použijete Azure Data Factory (ADF) k ingestování dat z Azure SQL Database do Azure Data Lake Storage Gen2 (ADLS Gen2). Jakmile data přistanete v jezeře, transformujete je prostřednictvím mapování toků dat, nativní transformační služby datové továrny a posadíte je do Azure Synapse Analytics. Pak tabulku nasdílíte s transformovanými daty spolu s některými dalšími daty pomocí služby Azure Data Share.

Data použitá v tomto cvičení jsou data taxislužby v New Yorku. Pokud ho chcete importovat do databáze ve službě SQL Database, stáhněte si soubor bacpac s daty taxislužby. Vyberte možnost Stáhnout nezpracovaný soubor na GitHubu.

Požadavky

  • Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.

  • Azure SQL Database: Pokud nemáte Azure SQL Database, zjistěte, jak vytvořit službu SQL Database.

  • Účet úložiště Azure Data Lake Storage Gen2: Pokud nemáte účet úložiště ADLS Gen2, zjistěte, jak vytvořit účet úložiště ADLS Gen2.

  • Azure Synapse Analytics: Pokud nemáte pracovní prostor Azure Synapse Analytics, zjistěte, jak začít s Azure Synapse Analytics.

  • Azure Data Factory: Pokud jste nevytvořili datovou továrnu, podívejte se, jak vytvořit datovou továrnu.

  • Azure Data Share: Pokud jste nevytvořili sdílenou složku dat, podívejte se , jak vytvořit sdílenou složku dat.

Nastavení prostředí Azure Data Factory

V této části se dozvíte, jak získat přístup k uživatelskému prostředí služby Azure Data Factory (ADF UX) z webu Azure Portal. Jakmile budete v uživatelském prostředí ADF, nakonfigurujete tři propojené služby pro každou z úložišť dat, která používáme: Azure SQL Database, ADLS Gen2 a Azure Synapse Analytics.

V propojených službách Azure Data Factory definujte informace o připojení k externím prostředkům. Azure Data Factory aktuálně podporuje více než 85 konektorů.

Otevření uživatelského rozhraní služby Azure Data Factory

  1. Otevřete Azure Portal v Microsoft Edgi nebo Google Chrome.

  2. Pomocí panelu hledání v horní části stránky vyhledejte "Datové továrny".

  3. Výběrem prostředku datové továrny otevřete jeho prostředky v levém podokně.

    Screenshot from the Azure portal of a data factories overview page.

  4. Vyberte Otevřít Azure Data Factory Studio. Data Factory Studio je také možné získat přístup přímo na adf.azure.com.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. Budete přesměrováni na domovskou stránku ADF na webu Azure Portal. Tato stránka obsahuje rychlá zahájení, instruktážní videa a odkazy na kurzy, ve které se naučíte koncepty datové továrny. Pokud chcete začít vytvářet, vyberte ikonu tužky na levém bočním panelu.

    Screenshot from the Azure portal of Portal configure.

Vytvoření propojené služby Azure SQL Database

  1. Pokud chcete vytvořit propojenou službu, vyberte na levém bočním panelu spravovat centrum, v podokně Připojení ions vyberte Propojené služby a pak vyberte Nový a přidejte novou propojenou službu.

    Screenshot from the Azure portal of creating a new linked service.

  2. První propojená služba, kterou nakonfigurujete, je Azure SQL Database. K filtrování seznamu úložiště dat můžete použít panel hledání. Vyberte dlaždici Azure SQL Database a vyberte pokračovat.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. V podokně konfigurace služby SQL Database zadejte jako název propojené služby "SQLDB". Zadejte své přihlašovací údaje, aby se datová továrna mohla připojit k vaší databázi. Pokud používáte ověřování SQL, zadejte název serveru, databázi, uživatelské jméno a heslo. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Vytvoření propojené služby Azure Synapse Analytics

  1. Stejným postupem přidejte propojenou službu Azure Synapse Analytics. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Synapse Analytics a vyberte pokračovat.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. V podokně konfigurace propojené služby zadejte jako název propojené služby "SQLDW". Zadejte své přihlašovací údaje, aby se datová továrna mohla připojit k vaší databázi. Pokud používáte ověřování SQL, zadejte název serveru, databázi, uživatelské jméno a heslo. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Vytvoření propojené služby Azure Data Lake Storage Gen2

  1. Poslední propojená služba potřebná pro toto cvičení je Azure Data Lake Storage Gen2. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte pokračovat.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. V podokně konfigurace propojené služby zadejte jako název propojené služby "ADLSGen2". Pokud používáte ověřování pomocí klíče účtu, vyberte účet úložiště ADLS Gen2 z rozevíracího seznamu Název účtu úložiště. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Zapnutí režimu ladění toku dat

V části Transformovat data pomocí mapování toku dat vytváříte mapování toků dat. Osvědčeným postupem před sestavením toků dat mapování je zapnout režim ladění, který umožňuje otestovat logiku transformace v sekundách v aktivním clusteru Spark.

Pokud chcete zapnout ladění, vyberte posuvník ladění toku dat v horním panelu plátna toku dat nebo plátna kanálu, pokud máte aktivity toku dat. Po zobrazení potvrzovací dialogového okna vyberte OK . Cluster se spustí přibližně za 5 až 7 minut. Pokračujte v ingestování dat ze služby Azure SQL Database do ADLS Gen2 pomocí aktivity kopírování během inicializace.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Příjem dat pomocí aktivity kopírování

V této části vytvoříte kanál s aktivitou kopírování, která ingestuje jednu tabulku ze služby Azure SQL Database do účtu úložiště ADLS Gen2. Dozvíte se, jak přidat kanál, nakonfigurovat datovou sadu a ladit kanál prostřednictvím uživatelského prostředí ADF. Vzor konfigurace použitý v této části lze použít ke kopírování z relačního úložiště dat do souborového úložiště dat.

Kanál ve službě Azure Data Factory je logické seskupení aktivit, které společně provádějí úlohu. Aktivita definuje operaci, která se má provést s vašimi daty. Datová sada odkazuje na data, která chcete použít v propojené službě.

Vytvoření kanálu s aktivitou kopírování

  1. V podokně prostředky továrny vyberte na ikoně plus a otevřete nabídku nového prostředku. Vyberte Kanál.

    Screenshot from the Azure portal of creating a new pipeline.

  2. Na kartě Obecné na plátně kanálu pojmenujte kanál něco popisného, například IngestAndTransformTaxiData.

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. V podokně aktivit na plátně kanálu otevřete accordion Přesunout a transformovat a přetáhněte aktivitu kopírování dat na plátno. Zadejte popisný název aktivity kopírování, například IngestIntoADLS.

    Screenshot from the Azure portal of adding a copy data step.

Konfigurace zdrojové datové sady Azure SQL DB

  1. Vyberte na kartě Zdroj aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nový. Vaším zdrojem bude tabulka dbo.TripData umístěná v dříve nakonfigurované propojené službě SQLDB.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Vyhledejte Azure SQL Database a vyberte pokračovat.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Zavolejte datovou sadu TripData. Jako propojenou službu vyberte SQLDB. V rozevíracím seznamu název tabulky vyberte název dbo.TripData tabulky. Importujte schéma z připojení nebo úložiště. Po dokončení zvolte OK.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Úspěšně jste vytvořili zdrojovou datovou sadu. Ujistěte se, že je ve zdrojovém nastavení vybraná výchozí hodnota Tabulka v poli použít dotaz.

Konfigurace datové sady jímky ADLS Gen2

  1. Vyberte na kartě Jímka aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nový.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Vyhledejte Azure Data Lake Storage Gen2 a vyberte pokračovat.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. V podokně pro výběr formátu vyberte při psaní do souboru CSV text s oddělovači . Vyberte pokračovat.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Pojmenujte datovou sadu jímky TripDataCSV. Jako propojenou službu vyberte ADLSGen2. Zadejte, kam chcete napsat soubor CSV. Můžete například zapisovat data do souboru trip-data.csv v kontejneru staging-container. Nastavte první řádek jako záhlaví na true, protože chcete, aby výstupní data měla záhlaví. Vzhledem k tomu, že v cíli ještě neexistuje žádný soubor, nastavte schéma importu na Hodnotu Žádné. Po dokončení zvolte OK.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

Otestování aktivity kopírování spuštěním ladění kanálu

  1. Pokud chcete ověřit, že aktivita kopírování funguje správně, vyberte v horní části plátna kanálu ladění a spusťte spuštění ladění. Spuštění ladění umožňuje otestovat kanál buď na konci, nebo až do zarážky před jeho publikováním do služby datové továrny.

    Screenshot from the Azure portal of the debug button.

  2. Pokud chcete monitorovat spuštění ladění, přejděte na kartu Výstup na plátně kanálu. Obrazovka monitorování se automaticky spustí každých 20 sekund nebo když ručně vyberete tlačítko aktualizovat. Aktivita kopírování má speciální zobrazení monitorování, ke kterému je možné získat přístup výběrem ikony očních brýlí ve sloupci Akce .

    Screenshot from the Azure portal of the monitoring button.

  3. Zobrazení monitorování kopírování poskytuje podrobnosti o spuštění a charakteristiky výkonu aktivity. Můžete zobrazit informace, jako jsou čtení a zápis dat, řádky pro čtení/zápis, čtení a zápis souborů a propustnost. Pokud jste všechno nakonfigurovali správně, měli byste vidět 49 999 řádků zapsaných do jednoho souboru v jímce ADLS.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Než přejdete k další části, doporučujeme publikovat změny ve službě datové továrny výběrem možnosti Publikovat vše na horním panelu továrny. Azure Data Factory sice v tomto cvičení nepodporuje úplnou integraci Gitu. Integrace Gitu umožňuje správu verzí, iterativní ukládání v úložišti a spolupráci na datové továrně. Další informace najdete v tématu Správa zdrojového kódu ve službě Azure Data Factory.

    Screenshot from the Azure portal of the publish all button.

Transformace dat s využitím toků dat mapování

Teď, když jste úspěšně zkopírovali data do Azure Data Lake Storage, je čas tato data spojit a agregovat do datového skladu. Používáme tok dat mapování, vizuálně navrženou transformační službu azure Data Factory. Mapování toků dat umožňuje uživatelům vyvíjet logiku transformace bez kódu a spouštět je v clusterech Spark spravovaných službou ADF.

Tok dat vytvořený v tomto kroku vnitřní spojuje datovou sadu TripDataCSV vytvořenou v předchozí části s tabulkou dbo.TripFares uloženou v SQLDB na základě čtyř klíčových sloupců. Data se pak agregují na základě sloupce payment_type , aby vypočítaly průměr určitých polí a zapisovaly se do tabulky Azure Synapse Analytics.

Přidání aktivity toku dat do kanálu

  1. V podokně aktivit plátna kanálu otevřete accordion Move and Transform a přetáhněte aktivitu toku dat na plátno.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. V bočním podokně, které se otevře, vyberte Vytvořit nový tok dat a zvolte Mapování toku dat. Vyberte OK.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. Budete přesměrováni na plátno toku dat, kde budete vytvářet logiku transformace. Na kartě Obecné pojmenujte tok dat JoinAndAggregateData.

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Konfigurace zdroje sdíleného svazku clusteru dat o jízdě

  1. První věc, kterou chcete udělat, je konfigurace dvou zdrojových transformací. První zdroj odkazuje na datovou sadu TripDataCSV s oddělovači. Pokud chcete přidat zdrojovou transformaci, vyberte na plátně pole Přidat zdroj .

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Pojmenujte zdroj TripDataCSV a v rozevíracím seznamu zdroje vyberte datovou sadu TripDataCSV. Pokud si pamatujete, nenaimportovali jste schéma při vytváření této datové sady, protože tam nebyla žádná data. Vzhledem k tomu trip-data.csv , že teď existuje, přejděte výběrem možnosti Upravit na kartu nastavení datové sady.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Přejděte na kartu Schéma a vyberte Importovat schéma. Výběrem možnosti Z připojení nebo úložiště importujte přímo z úložiště souborů. Mělo by se zobrazit 14 sloupců typu řetězec.

    Screenshot from the Azure portal of the schema source selection.

  4. Vraťte se k toku dat JoinAndAggregateData. Pokud se váš ladicí cluster spustil (označen zeleným kruhem vedle posuvníku ladění), můžete získat snímek dat na kartě Náhled dat. Pokud chcete načíst náhled dat, vyberte Aktualizovat .

    Screenshot from the Azure portal of the data flow preview.

Poznámka:

Náhled dat nezapisuje data.

Konfigurace jízdného za jízdu ve zdroji služby SQL Database

  1. Druhý zdroj, který přidáváte body do tabulky dbo.TripFaresslužby SQL Database. Pod zdrojem TripDataCSV je další pole Přidat zdroj . Výběrem této transformace přidáte novou zdrojovou transformaci.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Pojmenujte tento zdroj TripFaresSQL. Výběrem možnosti Nový vedle pole zdrojové datové sady vytvořte novou datovou sadu SQL Database.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Vyberte dlaždici Azure SQL Database a vyberte pokračovat. V mapování toku dat můžete zaznamenat, že mnoho konektorů v datové toku se nepodporuje. Pokud chcete transformovat data z jednoho z těchto zdrojů, ingestujte je do podporovaného zdroje pomocí aktivity kopírování.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Volejte datovou sadu TripFares. Jako propojenou službu vyberte SQLDB. V rozevíracím seznamu název tabulky vyberte název dbo.TripFares tabulky. Importujte schéma z připojení nebo úložiště. Po dokončení zvolte OK.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Pokud chcete ověřit svá data, načtěte náhled dat na kartě Náhled dat.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

Vnitřní připojení k TripDataCSV a TripFaresSQL

  1. Pokud chcete přidat novou transformaci, vyberte ikonu plus v pravém dolním rohu tripdataCSV. V části Více vstupů a výstupů vyberte Připojit.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Pojmenujte transformaci spojení InnerJoinWithTripFares. V rozevíracím seznamu správných datových proudů vyberte TripFaresSQL. Jako typ spojení vyberte Vnitřní . Další informace o různých typech spojení v mapování toku dat najdete v tématu Typy spojení.

    V rozevíracím seznamu Podmínky spojení vyberte sloupce, u kterých chcete shodovat jednotlivé datové proudy. Pokud chcete přidat další podmínku spojení, vyberte vedle existující podmínky ikonu plus. Ve výchozím nastavení jsou všechny podmínky spojení kombinovány s operátorem AND, což znamená, že všechny podmínky musí být splněny pro shodu. V tomto cvičení chceme shodovat se sloupci medallion, hack_license, vendor_ida , a pickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Ověřte, že jste úspěšně připojili 25 sloupců společně s náhledem dat.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Agregovat podle payment_type

  1. Po dokončení transformace spojení přidejte agregovanou transformaci výběrem ikony plus vedle InnerJoinWithTripFares. V části Modifikátor schématu zvolte Agregovat.

    Screenshot from the Azure portal of the new aggregate button.

  2. Pojmenujte agregační transformaci AggregateByPaymentType. Vyberte payment_type jako skupinu podle sloupce.

    Screenshot from the Azure portal of aggregate settings.

  3. Přejděte na kartu Agregace . Zadejte dvě agregace:

    • Průměrný tarif seskupený podle typu platby
    • Celková vzdálenost jízdy seskupené podle typu platby

    Nejprve vytvoříte průměrný výraz jízdného. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "average_fare".

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Pokud chcete zadat agregační výraz, vyberte modrý rámeček označený jako Výraz Enter, který otevře tvůrce výrazů toku dat, nástroj sloužící k vizuálnímu vytváření výrazů toku dat pomocí vstupního schématu, integrovaných funkcí a operací a uživatelsky definovaných parametrů. Další informace o možnostech tvůrce výrazů najdete v dokumentaci tvůrce výrazů.

    Chcete-li získat průměrnou jízdu, použijte avg() agregační funkci k agregaci total_amount sloupce přetypování na celé číslo s toInteger(). V jazyce výrazů toku dat je definován jako avg(toInteger(total_amount)). Až budete hotovi, vyberte Uložit a dokončit .

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Pokud chcete přidat další agregační výraz, vyberte vedle ikony plus .average_fare Vyberte Přidat sloupec.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte total_trip_distance. Stejně jako v posledním kroku otevřete tvůrce výrazů a zadejte ho do výrazu.

    Pokud chcete získat celkovou vzdálenost jízdy, použijte sum() agregační funkci k agregaci trip_distance sloupce přetypování na celé číslo s toInteger(). V jazyce výrazů toku dat je definován jako sum(toInteger(trip_distance)). Až budete hotovi, vyberte Uložit a dokončit .

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Otestujte logiku transformace na kartě Náhled dat. Jak vidíte, existuje výrazně méně řádků a sloupců než dříve. Pouze tři skupiny podle sloupců agregace definované v této transformaci budou pokračovat v podřízené oblasti. Vzhledem k tomu, že v ukázce je pouze pět skupin platebních typů, vypíše se pouze pět řádků.

    Screenshot from the Azure portal of aggregate data preview.

Konfigurace jímky Azure Synapse Analytics

  1. Teď, když jsme dokončili logiku transformace, jsme připravení potopit data v tabulce Azure Synapse Analytics. Přidejte transformaci jímky do oddílu Cíl .

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Pojmenujte jímku SQLDWSink. Výběrem možnosti Nový vedle pole datové sady jímky vytvořte novou datovou sadu Azure Synapse Analytics.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Vyberte dlaždici Azure Synapse Analytics a vyberte pokračovat.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Volejte datovou sadu AggregatedTaxiData. Jako propojenou službu vyberte SQLDW. Vyberte Vytvořit novou tabulku a pojmenujte novou tabulku dbo.AggregateTaxiData. Po dokončení zvolte OK.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Přejděte na kartu Nastavení jímky. Vzhledem k tomu, že vytváříme novou tabulku, musíme v akci tabulky vybrat Znovu vytvořit tabulku . Zrušte výběr možnosti Povolit přípravu, která přepíná, jestli vkládáme řádky po řádcích nebo v dávce.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Úspěšně jste vytvořili tok dat. Teď je čas ho spustit v aktivitě kanálu.

Ladění kompletního kanálu

  1. Vraťte se na kartu kanálu IngestAndTransformData . Všimněte si zeleného rámečku aktivity kopírování IngestIntoADLS. Přetáhněte ho na aktivitu toku dat JoinAndAggregateData. Tím se vytvoří aktivita toku dat při úspěchu, která způsobí, že se aktivita toku dat spustí jenom v případě, že je kopírování úspěšné.

    Screenshot from the Azure portal of a green success pipeline.

  2. Stejně jako u aktivity kopírování vyberte Ladit a spusťte spuštění ladění. U spuštění ladění aktivita toku dat používá aktivní ladicí cluster místo otáčení nového clusteru. Spuštění tohoto kanálu trvá trochu přes minutu.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Podobně jako u aktivity kopírování má tok dat při dokončení aktivity speciální zobrazení monitorování, ke které přistupuje ikona brýle.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. V zobrazení monitorování můžete vidět zjednodušený graf toku dat spolu s časy provádění a řádky v každé fázi provádění. Pokud jste to udělali správně, měli byste v této aktivitě agregovat 49 999 řádků do pěti řádků.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Můžete vybrat transformaci, abyste získali další podrobnosti o jejím spuštění, jako jsou informace o dělení a nové/ aktualizované nebo vyřazené sloupce.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Dokončili jste část tohoto testovacího prostředí datové továrny. Pokud chcete prostředky zprovoznit pomocí triggerů, publikujte je. Úspěšně jste spustili kanál, který ingestoval data z Azure SQL Database do Azure Data Lake Storage pomocí aktivity kopírování a pak tato data agregovala do Azure Synapse Analytics. Data úspěšně napsaná můžete ověřit tak, že se podíváte na samotný SQL Server.

Sdílení dat s využitím Azure Data Share

V této části se dozvíte, jak nastavit novou sdílenou složku dat pomocí webu Azure Portal. To zahrnuje vytvoření nové sdílené složky dat, která obsahuje datové sady z Azure Data Lake Storage Gen2 a Azure Synapse Analytics. Pak nakonfigurujete plán snímků, který uživatelům dat poskytne možnost automaticky aktualizovat sdílená data. Pak pozvete příjemce do sdílené datové složky.

Jakmile vytvoříte sdílenou složku dat, přepnete klobouky a stanete se příjemcem dat. Jako příjemce dat si projdete tok přijetí pozvánky ke sdílené složce dat a nakonfigurujete, kam chcete data přijímat a mapovat datové sady na různá umístění úložiště. Pak aktivujete snímek, který zkopíruje data sdílená s vámi do zadaného cíle.

Sdílení dat (tok Zprostředkovatel dat)

  1. Otevřete Azure Portal v Microsoft Edgi nebo Google Chrome.

  2. Pomocí panelu hledání v horní části stránky vyhledejte datové sdílené složky.

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. V názvu vyberte účet sdílené datové složky se zprostředkovatelem. Například DataProvider0102.

  4. Vyberte Zahájit sdílení dat.

    Screenshot from the Azure portal of the start sharing your data button.

  5. Vyberte +Vytvořit a začněte konfigurovat novou sdílenou složku dat.

  6. V části Název sdílené složky zadejte název podle svého výběru. Jedná se o název sdílené složky, který uvidí váš příjemce dat, proto mu dejte popisný název, například TaxiData.

  7. V části Popis vložte větu, která popisuje obsah sdílené datové složky. Sdílená složka dat obsahuje globální data o jízdě taxíkem, která jsou uložená v různých úložištích, včetně Azure Synapse Analytics a Azure Data Lake Storage.

  8. V části Podmínky použití zadejte sadu podmínek, které chcete, aby spotřebitel dat dodržoval podmínky. Mezi příklady patří "Nedistribuovat tato data mimo vaši organizaci" nebo "Odkazovat na právní smlouvu".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Zvolte Pokračovat.

  10. Výběr možnosti Přidat datové sady

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Vyberte Azure Synapse Analytics a vyberte tabulku ze služby Azure Synapse Analytics, ve které vaše transformace ADF přistály.

  12. Než budete moct pokračovat, dostanete skript ke spuštění. Zadaný skript vytvoří uživatele v databázi SQL, aby se MSI služby Azure Data Share mohla ověřit jejím jménem.

    Důležité

    Před spuštěním skriptu musíte nastavit jako službu Active Directory Správa pro logický SQL server služby Azure SQL Database.

  13. Otevřete novou kartu a přejděte na web Azure Portal. Zkopírujte zadaný skript pro vytvoření uživatele v databázi, ze které chcete sdílet data. Uděláte to tak, že se přihlásíte k databázi EDW pomocí editoru dotazů na webu Azure Portal pomocí ověřování Microsoft Entra. Musíte upravit uživatele v následujícím ukázkovém skriptu:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Přepněte zpět do služby Azure Data Share, do které jste do sdílené datové složky přidávali datové sady.

  15. Vyberte EDW a pak pro tabulku vyberte AggregatedTaxiData .

  16. Výběr možnosti Přidat datovou sadu

    Teď máme tabulku SQL, která je součástí naší datové sady. V dalším kroku přidáme další datové sady z Azure Data Lake Storage.

  17. Vyberte Přidat datovou sadu a vyberte Azure Data Lake Storage Gen2.

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Vyberte Další.

  19. Rozbalte wwtaxidata. Rozbalte data bostonského taxislužby. Sdílení můžete snížit na úroveň souboru.

  20. Vyberte složku Boston Taxi Data a přidejte celou složku do sdílené složky dat.

  21. Výběr možnosti Přidat datové sady

  22. Zkontrolujte přidané datové sady. Měli byste mít tabulku SQL a složku ADLS Gen2 přidanou do sdílené složky dat.

  23. Vyberte Pokračovat.

  24. Na této obrazovce můžete do sdílené složky dat přidat příjemce. Příjemci, které přidáte, dostanou pozvánky ke sdílené složce dat. Pro účely tohoto cvičení musíte přidat dvě e-mailové adresy:

    1. E-mailová adresa předplatného Azure, ve kterém jste.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Přidejte fiktivního příjemce dat s názvem janedoe@fabrikam.com.

  25. Na této obrazovce můžete nakonfigurovat nastavení snímku pro příjemce dat. Díky tomu získáte pravidelné aktualizace dat v intervalu definovaném vámi.

  26. Pomocí rozevíracího seznamu Opakování zkontrolujte plán snímků a nakonfigurujte hodinovou aktualizaci dat.

  27. Vyberte Vytvořit.

    Teď máte aktivní sdílenou složku dat. Umožňuje zkontrolovat, co můžete při vytváření sdílené složky dat vidět jako zprostředkovatele dat.

  28. Vyberte sdílenou složku dat, kterou jste vytvořili s názvem DataProvider. Na ni můžete přejít tak, že vyberete Odeslaná sdílená složka ve sdílené složce dat.

  29. Vyberte plán snímků. Pokud zvolíte, můžete plán snímků zakázat.

  30. Pak vyberte kartu Datové sady . Po vytvoření můžete do této sdílené složky dat přidat další datové sady.

  31. Vyberte kartu Sdílet předplatná. Zatím neexistují žádná předplatná sdílení, protože příjemce dat ještě pozvánku nepřijal.

  32. Přejděte na kartu Pozvánky . Tady uvidíte seznam nevyřízených pozvánek.

    Screenshot from the Azure portal of Pending invitations.

  33. Vyberte pozvánku na janedoe@fabrikam.com. Vyberte Odstranit. Pokud příjemce pozvánku ještě nepřijal, už to nebude moct udělat.

  34. Vyberte kartu Historie. Nic se zatím nezobrazuje, protože váš příjemce dat ještě pozvánku nepřijal a aktivoval snímek.

Příjem dat (tok příjemce dat)

Teď, když jsme si prošli naši sdílenou složku dat, jsme připraveni přepnout kontext a nosit klobouk pro spotřebitele dat.

Teď byste měli mít pozvánku ke službě Azure Data Share ve složce Doručená pošta z Microsoft Azure. Spusťte Outlook Web Access (outlook.com) a přihlaste se pomocí přihlašovacích údajů zadaných pro vaše předplatné Azure.

V e-mailu, který byste měli obdržet, vyberte možnost Zobrazit pozvánku >. V tuto chvíli budete simulovat prostředí pro spotřebitele dat při přijetí pozvánky zprostředkovatele dat do jejich sdílené datové složky.

Screenshot from Outlook of an Email invitation.

Může se zobrazit výzva k výběru předplatného. Ujistěte se, že jste pro toto cvičení vybrali předplatné, ve které jste pracovali.

  1. Vyberte pozvánku s názvem DataProvider.

  2. Na této obrazovce pozvánky si všimněte různých podrobností o sdílené složce dat, kterou jste nakonfigurovali dříve jako poskytovatele dat. Zkontrolujte podrobnosti a přijměte podmínky použití, pokud jsou k dispozici.

  3. Vyberte předplatné a skupinu prostředků, které už pro vaše testovací prostředí existují.

  4. V případě účtu sdílené datové složky vyberte DataConsumer. Můžete také vytvořit nový účet sdílené datové složky.

  5. Vedle názvu přijaté sdílené složky si všimněte, že výchozí název sdílené složky je název, který určil poskytovatel dat. Dejte sdílené složce popisný název, který popisuje data, která se chystáte přijmout, například TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Můžete zvolit možnost Přijmout a nakonfigurovat nyní nebo Přijmout a nakonfigurovat později. Pokud se rozhodnete přijmout a nakonfigurovat teď, zadejte účet úložiště, do kterého se mají kopírovat všechna data. Pokud se rozhodnete přijmout a nakonfigurovat později, datové sady ve sdílené složce se nenamapují a budete je muset namapovat ručně. Rozhodneme se pro to později.

  7. Vyberte Přijmout a nakonfigurujte později.

    Při konfiguraci této možnosti se vytvoří předplatné sdílené složky, ale neexistuje nikde, kde by se data dostala, protože nebyla namapována žádná cílová místa.

    Dále nakonfigurujte mapování datových sad pro sdílenou datovou složku.

  8. Vyberte přijatou sdílenou složku (název, který jste zadali v kroku 5).

    Snímek triggeru je neaktivní, ale sdílená složka je aktivní.

  9. Vyberte kartu Datové sady. Každá datová sada je nemapovaná, což znamená, že nemá žádný cíl ke kopírování dat.

    Screenshot from the Azure portal of unmapped datasets.

  10. Vyberte tabulku Azure Synapse Analytics a pak vyberte + Mapovat na cíl.

  11. Na pravé straně obrazovky vyberte rozevírací seznam Cílový datový typ .

    Data SQL můžete mapovat na širokou škálu úložišť dat. V tomto případě budeme mapovat na Azure SQL Database.

    Screenshot from the Azure portal of map datasets to target.

    (Volitelné) Jako cílový datový typ vyberte Azure Data Lake Storage Gen2 .

    (Volitelné) Vyberte předplatné, skupinu prostředků a účet úložiště, ve kterých jste pracovali.

    (Volitelné) Data můžete přijímat do datového jezera ve formátu CSV nebo parquet.

  12. Vedle datového typu Target vyberte Azure SQL Database.

  13. Vyberte předplatné, skupinu prostředků a účet úložiště, ve kterých jste pracovali.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Než budete moct pokračovat, budete muset na SQL Serveru vytvořit nového uživatele spuštěním poskytnutého skriptu. Nejprve zkopírujte skript zadaný do schránky.

  15. Otevřete novou kartu webu Azure Portal. Nezavírejte stávající kartu, protože se k ní budete muset vrátit za chvíli.

  16. Na nové kartě, kterou jste otevřeli, přejděte do databází SQL.

  17. Vyberte databázi SQL (ve vašem předplatném by měla být jenom jedna). Dávejte pozor, abyste nevybírejte datový sklad.

  18. Výběr editoru dotazů (Preview)

  19. K přihlášení k editoru dotazů použijte ověřování Microsoft Entra.

  20. Spusťte dotaz zadaný ve sdílené složce dat (zkopírovaný do schránky v kroku 14).

    Tento příkaz umožňuje službě Azure Data Share používat spravované identity pro služby Azure k ověření na SQL Serveru, aby do ní mohla kopírovat data.

  21. Vraťte se na původní kartu a vyberte Mapovat k cíli.

  22. Dále vyberte složku Azure Data Lake Storage Gen2, která je součástí datové sady, a namapujte ji na účet Azure Blob Storage.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Se všemi namapovanými datovými sadami teď můžete začít přijímat data od zprostředkovatele dat.

    Screenshot from the Azure portal of received shares mapped.

  23. Vyberte Podrobností.

    Snímek triggeru už není šedý, protože sdílená složka dat teď má cíle, do které se mají kopírovat.

  24. Vyberte snímek aktivační události –> úplná kopie.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Tím se začnou kopírovat data do nového účtu sdílené datové složky. V reálném scénáři by tato data pocházejí od třetí strany.

    Než se data dostanou, trvá přibližně 3 až 5 minut. Průběh můžete sledovat výběrem na kartě Historie .

    Během čekání přejděte na původní sdílenou složku dat (DataProvider) a zobrazte stav karty Sdílet předplatná a historie . Teď je aktivní předplatné a jako poskytovatel dat můžete také monitorovat, kdy spotřebitel dat začal přijímat data sdílená s nimi.

  25. Vraťte se ke sdílené složce dat příjemce dat. Jakmile je stav triggeru úspěšný, přejděte do cílové databáze SQL a datového jezera, abyste zjistili, že data přistála v příslušných úložištích.

Blahopřejeme, dokončili jste cvičení!