Integrace dat pomocí Azure Data Factory a Azure Data Share

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Když se zákazníci pouštějí do svých moderních projektů datových skladů a analýz, vyžadují nejen více dat, ale také větší přehled o svých datech napříč jejich datovými aktivy. V tomto workshopu se dozvíte, jak vylepšení Azure Data Factory a Azure Data Share zjednodušit integraci a správu dat v Azure.

Od povolení ETL/ELT bez kódu až po vytvoření komplexního zobrazení dat, vylepšení v Azure Data Factory umožní vašim datovým inženýrům bezpečně přivést do vašeho podniku více dat, a tím i větší hodnotu. Azure Data Share vám umožní provádět sdílení mezi firmami řízeným způsobem.

V tomto workshopu použijete Azure Data Factory (ADF) k ingestování dat z Azure SQL Database do Azure Data Lake Storage Gen2 (ADLS Gen2). Jakmile data uložíte do jezera, transformujete je pomocí mapování toků dat, nativní transformační služby datové továrny a potopíte je do Azure Synapse Analytics. Pak tabulku nasdílíte s transformovanými daty spolu s dalšími daty pomocí Azure Data Share.

Data použitá v této laboratoři jsou data taxislužby v New Yorku. Pokud ho chcete importovat do databáze v SQL Database, stáhněte si soubor bacpac taxi-data.

Požadavky

Nastavení prostředí Azure Data Factory

V této části se dozvíte, jak získat přístup k uživatelskému prostředí Azure Data Factory (UX ADF) z Azure Portal. V uživatelském prostředí ADF nakonfigurujete pro každé úložiště dat, které používáme, tři propojené služby: Azure SQL DB, ADLS Gen2 a Azure Synapse Analytics.

V Azure Data Factory propojené služby definují informace o připojení k externím prostředkům. Azure Data Factory aktuálně podporuje více než 85 konektorů.

Otevření uživatelského prostředí Azure Data Factory

  1. Otevřete Azure Portal v prohlížeči Microsoft Edge nebo Google Chrome.

  2. Pomocí panelu hledání v horní části stránky vyhledejte "Datové továrny".

    Portál 1

  3. Výběrem prostředku datové továrny otevřete jeho prostředky v levém podokně.

    Portál 2

  4. Vyberte Otevřít Azure Data Factory Studio. Data Factory Studio je také přístupné přímo na adf.azure.com.

    Snímek obrazovky domovské stránky Azure Data Factory v Azure Portal

  5. Budete přesměrováni na domovskou stránku uživatelského rozhraní ADF. Tato stránka obsahuje rychlé starty, instruktážní videa a odkazy na kurzy, které vám umožní seznámit se s koncepty datové továrny. Pokud chcete začít vytvářet, vyberte ikonu tužky na levém bočním panelu.

    Konfigurace portálu

Vytvoření propojené služby Azure SQL Database

  1. Pokud chcete vytvořit propojenou službu, vyberte na levém bočním panelu Spravovat centrum, v podokně Připojení vyberte Propojené služby a pak vyberte Nový a přidejte novou propojenou službu.

    Konfigurace portálu 2

  2. První propojená služba, kterou nakonfigurujete, je Azure SQL DB. K filtrování seznamu úložiště dat můžete použít panel hledání. Vyberte na dlaždici Azure SQL Database (Databáze) a vyberte Continue (Pokračovat).

    Konfigurace portálu 4

  3. V podokně konfigurace DATABÁZE SQL zadejte jako název propojené služby "SQLDB". Zadejte svoje přihlašovací údaje, aby se datová továrna mohla připojit k databázi. Pokud používáte ověřování SQL, zadejte do názvu serveru, databáze, svého uživatelského jména a hesla. Výběrem možnosti Testovat připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.

    Konfigurace portálu 5

Vytvoření propojené služby Azure Synapse Analytics

  1. Stejným postupem přidáte propojenou službu Azure Synapse Analytics. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Synapse Analytics a vyberte Pokračovat.

    Konfigurace portálu 6

  2. V podokně konfigurace propojené služby jako název propojené služby zadejte SQLDW. Zadejte svoje přihlašovací údaje, aby se datová továrna mohla připojit k databázi. Pokud používáte ověřování SQL, zadejte do názvu serveru, databáze, svého uživatelského jména a hesla. Kliknutím na Test připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.

    Konfigurace portálu 7

Vytvoření propojené služby Azure Data Lake Storage Gen2

  1. Poslední propojená služba potřebná pro toto testovací prostředí je Azure Data Lake Storage gen2. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte Pokračovat.

    Konfigurace portálu 8

  2. V podokně konfigurace propojené služby jako název propojené služby zadejte ADLSGen2. Pokud používáte ověřování pomocí klíče účtu, vyberte v rozevíracím seznamu Název účtu úložiště svůj účet úložiště ADLS Gen2. Kliknutím na Test připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.

    Konfigurace portálu 9

Zapnutí režimu ladění toku dat

V části Transformace dat pomocí mapování toku dat budete vytvářet toky dat mapování. Osvědčeným postupem před vytvářením toků dat mapování je zapnout režim ladění, který umožňuje otestovat logiku transformace v aktivním clusteru Spark v řádu sekund.

Pokud chcete zapnout ladění, vyberte posuvník ladění toku dat na horním panelu plátna toku dat nebo plátna kanálu, pokud máte aktivity toku dat . Při zobrazení potvrzovacího dialogového okna vyberte OK . Cluster se spustí přibližně za 5 až 7 minut. Pokračujte k Ingestování dat z Azure SQL DB do ADLS Gen2 pomocí aktivity kopírování během inicializace.

Konfigurace portálu 10

Snímek obrazovky, který ukazuje, kde je posuvník ladění toku dat

Ingestování dat pomocí aktivity kopírování

V této části vytvoříte kanál s aktivitou kopírování, která ingestuje jednu tabulku z databáze Azure SQL do účtu úložiště ADLS Gen2. Dozvíte se, jak přidat kanál, nakonfigurovat datovou sadu a ladit kanál prostřednictvím uživatelského prostředí ADF. Vzor konfigurace použitý v této části se dá použít ke kopírování z relačního úložiště dat do souborového úložiště dat.

V Azure Data Factory je kanál logickým seskupením aktivit, které společně provádějí úlohu. Aktivita definuje operaci, která se má s vašimi daty provést. Datová sada odkazuje na data, která chcete použít v propojené službě.

Vytvoření kanálu s aktivitou kopírování

  1. V podokně prostředků továrny výběrem ikony plus otevřete nabídku nového prostředku. Vyberte Kanál.

    Kopie portálu 1

  2. Na kartě Obecné na plátně kanálu pojmenujte kanál něco popisného, například IngestAndTransformTaxiData.

    Kopie portálu 2

  3. V podokně aktivit plátna kanálu otevřete akordeon Přesunout a transformovat a přetáhněte aktivitu Kopírování dat na plátno. Dejte aktivitě kopírování popisný název, například "IngestIntoADLS".

    Kopie portálu 3

Konfigurace zdrojové datové sady Azure SQL DB

  1. Vyberte na kartě Zdroj aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nová. Vaším zdrojem bude tabulka dbo. TripData se nachází v propojené službě SQLDB nakonfigurované dříve.

    Kopie portálu 4

  2. Vyhledejte Azure SQL Database a vyberte Pokračovat.

    Kopie portálu 5

  3. Volejte datovou sadu TripData. Jako propojenou službu vyberte SQLDB. Vyberte název tabulky dbo. TripData' z rozevíracího seznamu názvů tabulek. Importujte schéma z připojení nebo úložiště. Po dokončení vyberte OK.

    Kopie portálu 6

Úspěšně jste vytvořili zdrojovou datovou sadu. Ujistěte se, že v nastavení zdroje je v poli pro použití dotazu vybraná výchozí hodnota Tabulka .

Konfigurace datové sady jímky ADLS Gen2

  1. Vyberte na kartě Jímka aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nová.

    Kopie portálu 7

  2. Vyhledejte Azure Data Lake Storage Gen2 a vyberte Pokračovat.

    Kopie portálu 8

  3. V podokně vybrat formát vyberte Při psaní do souboru CSV vyberte Text s oddělovači . Vyberte Pokračovat.

    Kopie portálu 9

  4. Datovou sadu jímky pojmenujte TripDataCSV. Jako propojenou službu vyberte ADLSGen2. Zadejte, kam chcete soubor CSV napsat. Data můžete například zapsat do souboru trip-data.csv v kontejneru staging-container. Nastavte První řádek jako záhlaví na true, protože chcete, aby výstupní data měla záhlaví. Vzhledem k tomu, že v cíli zatím neexistuje žádný soubor, nastavte Schéma importu na Žádný. Po dokončení vyberte OK.

    Kopie portálu 10

Testování aktivity kopírování pomocí spuštění ladění kanálu

  1. Pokud chcete ověřit, že vaše aktivita kopírování funguje správně, vyberte Ladit v horní části plátna kanálu a spusťte spuštění ladění. Spuštění ladění umožňuje otestovat kanál buď od konce do konce, nebo až do zarážky, než ho publikujete do služby datové továrny.

    Kopie portálu 11

  2. Pokud chcete monitorovat spuštění ladění, přejděte na plátně kanálu na kartu Výstup . Obrazovka monitorování se automaticky zobrazí každých 20 sekund nebo když ručně vyberete tlačítko aktualizovat. Aktivita kopírování má speciální monitorovací zobrazení, ke kterému se dostanete kliknutím na ikonu brýle ve sloupci Akce .

    Kopie portálu 12

  3. Zobrazení monitorování kopírování poskytuje podrobnosti o provádění aktivity a charakteristiky výkonu. Můžete zobrazit informace, jako jsou čtení/zápis dat, čtení/zápis řádků, čtení/zápis souborů a propustnost. Pokud jste všechno nakonfigurovali správně, měli byste v jímce ADLS vidět 49 999 řádků zapsaných do jednoho souboru.

    Kopie portálu 13

  4. Než přejdete k další části, doporučujeme publikovat změny ve službě datové továrny kliknutím na Publikovat vše na horním panelu továrny. I když toto cvičení neprobývá, Azure Data Factory podporuje úplnou integraci Gitu. Integrace Gitu umožňuje správu verzí, iterativní ukládání v úložišti a spolupráci na datové továrně. Další informace najdete v tématu správa zdrojového kódu v Azure Data Factory.

    Publikování portálu 1

Transformace dat s využitím toků dat mapování

Teď, když jste úspěšně zkopírovali data do Azure Data Lake Storage, je čas tato data spojit a agregovat je do datového skladu. Použijeme mapování toku dat Azure Data Factory vizuálně navržené transformační služby. Mapování toků dat umožňuje uživatelům vyvíjet logiku transformace bez kódu a spouštět je v clusterech Spark spravovaných službou ADF.

Tok dat vytvořený v tomto kroku uvnitř spojí datovou sadu TripDataCSV vytvořenou v předchozí části s tabulkou dbo. TripFares' uložené v SQLDB na základě čtyř klíčových sloupců. Potom se data agregují na základě sloupcepayment_type, aby se vypočítal průměr určitých polí a zapisují se do tabulky Azure Synapse Analytics.

Přidání aktivity toku dat do kanálu

  1. V podokně aktivit plátna kanálu otevřete akordeon Přesunout a transformovat a přetáhněte aktivitu Tok dat na plátno.

    Tok dat na portálu 1

  2. V bočním podokně, které se otevře, vyberte Vytvořit nový tok dat a zvolte Mapování toku dat. Vyberte OK.

    Tok dat portálu 2

  3. Budete přesměrováni na plátno toku dat, kde budete vytvářet logiku transformace. Na kartě Obecné pojmenujte tok dat JoinAndAggregateData.

    Tok dat portálu 3

Konfigurace zdroje csv dat o cestě

  1. První věc, kterou chcete udělat, je nakonfigurovat dvě zdrojové transformace. První zdroj bude odkazovat na datovou sadu TripDataCSV DelimitedText. Pokud chcete přidat zdrojovou transformaci, vyberte na plátně pole Přidat zdroj .

    Tok dat na portálu 4

  2. Pojmenujte zdroj TripDataCSV a v rozevíracím seznamu zdroje vyberte datovou sadu TripDataCSV. Pokud si pamatujete, při vytváření této datové sady jste schéma původně neimportovali, protože tam nebyla žádná data. Vzhledem k tomu trip-data.csv , že teď existuje, vyberte Upravit a přejděte na kartu nastavení datové sady.

    Tok dat na portálu 5

  3. Přejděte na kartu Schéma a vyberte Importovat schéma. Vyberte Z připojení nebo úložiště a importujte přímo z úložiště souborů. Mělo by se zobrazit 14 sloupců typu řetězec.

    Tok dat na portálu 6

  4. Zpět toku dat JoinAndAggregateData. Pokud se váš ladicí cluster spustil (označený zeleným kroužkem vedle posuvníku ladění), můžete získat snímek dat na kartě Náhled dat . Pokud chcete načíst náhled dat, vyberte Aktualizovat .

    Tok dat portálu 7

Poznámka

Náhled dat nezapisuje data.

Konfigurace tarifu jízdy ve zdroji databáze SQL

  1. Druhý zdroj, který přidáváte, bude odkazovat na tabulku DATABÁZE SQL dbo. TripFares'. Pod zdrojem TripDataCSV bude další pole Přidat zdroj . Výběrem ho přidáte novou zdrojovou transformaci.

    Tok dat na portálu 8

  2. Tento zdroj pojmenujte TripFaresSQL. Vyberte Nový vedle pole zdrojové datové sady a vytvořte novou datovou sadu DATABÁZE SQL.

    Tok dat na portálu 9

  3. Vyberte dlaždici Azure SQL Database (Databáze Azure SQL) a vyberte Continue (Pokračovat). Poznámka: Můžete si všimnout, že mnoho konektorů v datové toku se v mapování toku dat nepodporuje. Pokud chcete transformovat data z jednoho z těchto zdrojů, ingestujte je do podporovaného zdroje pomocí aktivity kopírování.

    Tok dat na portálu 10

  4. Volejte datovou sadu TripFares. Jako propojenou službu vyberte SQLDB. Vyberte název tabulky dbo. TripFares' z rozevíracího seznamu názvů tabulek. Importujte schéma z připojení nebo úložiště. Po dokončení vyberte OK.

    Tok dat na portálu 11

  5. Pokud chcete ověřit data, načtěte náhled dat na kartě Náhled dat .

    Tok dat portálu 12

Vnitřní spojení TripDataCSV a TripFaresSQL

  1. Pokud chcete přidat novou transformaci, vyberte ikonu plus v pravém dolním rohu TripDataCSV. V části Více vstupů a výstupů vyberte Připojit.

    Připojení k portálu 1

  2. Pojmenujte transformaci spojení InnerJoinWithTripFares. V pravém rozevíracím seznamu datového proudu vyberte TripFaresSQL. Jako typ spojení vyberte Vnitřní . Další informace o různých typech spojení v mapování toku dat najdete v tématu Typy spojení.

    V rozevíracím seznamu Podmínky připojení vyberte, které sloupce chcete spárovat. Pokud chcete přidat další podmínku spojení, vyberte ikonu plus vedle existující podmínky. Ve výchozím nastavení jsou všechny podmínky spojení kombinovány s operátorem AND, což znamená, že pro shodu musí být splněny všechny podmínky. V tomto cvičení chceme shodovat sloupce medallion, hack_license, vendor_ida pickup_datetime

    Připojení k portálu 2

  3. Ověřte, že jste úspěšně připojili 25 sloupců společně s náhledem dat.

    Připojení k portálu 3

Agregace podle payment_type

  1. Po dokončení transformace spojení přidejte agregační transformaci kliknutím na ikonu plus vedle InnerJoinWithTripFares. V části Modifikátor schématu zvolte Agregovat.

    Agg portálu 1

  2. Pojmenujte svou agregační transformaci AggregateByPaymentType. Vyberte payment_type jako seskupovat podle sloupce.

    Agg portálu 2

  3. Přejděte na kartu Agregace . Tady zadáte dvě agregace:

    • Průměrné tarify seskupené podle typu platby
    • Celková vzdálenost cesty seskupené podle typu platby

    Nejprve vytvoříte výraz průměrného tarifu. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "average_fare".

    Agg portálu 3

  4. Pokud chcete zadat agregační výraz, vyberte modré pole s popiskem Enter expression. Otevře se tvůrce výrazů toku dat, nástroj sloužící k vizuálnímu vytváření výrazů toku dat pomocí vstupního schématu, předdefinovaných funkcí a operací a uživatelsky definovaných parametrů. Další informace o možnostech tvůrce výrazů najdete v dokumentaci ke tvůrci výrazů.

    Pokud chcete získat průměrnou jízdu, pomocí avg() agregační funkce agregujte total_amount přetypování sloupce na celé číslo pomocí toInteger(). V jazyce výrazu toku dat je definován jako avg(toInteger(total_amount)). Až budete hotovi, vyberte Uložit a dokončete ho.

    Portál agg 4

  5. Pokud chcete přidat další agregační výraz, vyberte ikonu plus vedle average_fare. Vyberte Přidat sloupec.

    Agg portálu 5

  6. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "total_trip_distance". Stejně jako v posledním kroku otevřete tvůrce výrazů a zadejte ho do výrazu.

    Pokud chcete získat celkovou vzdálenost jízdy, pomocí sum() agregační funkce agregujte trip_distance přetypování sloupce na celé číslo pomocí toInteger(). V jazyce výrazu toku dat je definován jako sum(toInteger(trip_distance)). Až budete hotovi, vyberte Uložit a dokončete ho.

    Portal agg 6

  7. Otestujte logiku transformace na kartě Náhled dat . Jak vidíte, existuje výrazně méně řádků a sloupců než dříve. Pouze tři sloupce seskupování podle a agregace definované v této transformaci budou pokračovat v podřízené části. Vzhledem k tomu, že v ukázce je pouze pět skupin typů plateb, zobrazí se jenom pět řádků.

    Portál agg 7

Konfigurace jímky Azure Synapse Analytics

  1. Teď, když jsme dokončili logiku transformace, jsme připraveni potopit data v tabulce Azure Synapse Analytics. V části Cíl přidejte transformaci jímky.

    Portálová jímka 1

  2. Pojmenujte jímku SQLDWSink. Vyberte Nový vedle pole datové sady jímky a vytvořte novou datovou sadu Azure Synapse Analytics.

    Portálová jímka 2

  3. Vyberte dlaždici Azure Synapse Analytics a vyberte Pokračovat.

    Portálová jímka 3

  4. Zavolejte datovou sadu AggregatedTaxiData. Jako propojenou službu vyberte SQLDW. Vyberte Vytvořit novou tabulku a pojmenujte novou tabulku dbo. AggregateTaxiData. Po dokončení vyberte OK.

    Portálová jímka 4

  5. V jímce přejděte na kartu Nastavení . Vzhledem k tomu, že vytváříme novou tabulku, musíme vybrat Možnost Znovu vytvořit tabulku pod akcí tabulky. Zrušte zaškrtnutí políčka Povolit pracovní, která přepíná, jestli vkládáme řádek po řádku nebo v dávce.

    Portálová jímka 5

Úspěšně jste vytvořili tok dat. Teď je čas ji spustit v aktivitě kanálu.

Kompletní ladění kanálu

  1. Zpět na kartu pro kanál IngestAndTransformData. Všimněte si zeleného rámečku aktivity kopírování IngestIntoADLS. Přetáhněte ji na aktivitu toku dat JoinAndAggregateData. Tím se vytvoří "při úspěchu", což způsobí, že aktivita toku dat se spustí pouze v případě, že je kopírování úspěšné.

    Kanál portálu 1

  2. Stejně jako u aktivity kopírování vyberte Ladit a spusťte spuštění ladění. V případě spuštění ladění použije aktivita toku dat aktivní ladicí cluster místo spouštění nového clusteru. Spuštění tohoto kanálu bude trvat něco málo přes minutu.

    Kanál portálu 2

  3. Stejně jako aktivita kopírování má tok dat zvláštní zobrazení monitorování, ke které při dokončení aktivity přistupuje ikona brýlí.

    Kanál portálu 3

  4. V zobrazení monitorování vidíte zjednodušený graf toku dat spolu s časy provádění a řádky v jednotlivých fázích provádění. Pokud to uděláte správně, měli byste v této aktivitě agregovat 49 999 řádků do pěti řádků.

    Kanál portálu 4

  5. Výběrem transformace můžete získat další podrobnosti o jejím provádění, jako jsou informace o dělení a nové, aktualizované nebo vyřazené sloupce.

    Kanál portálu 5

Dokončili jste část tohoto testovacího prostředí pro vytváření dat. Pokud chcete prostředky zprovoznit pomocí triggerů, publikujte je. Úspěšně jste spustili kanál, který ingestoval data z databáze Azure SQL do Azure Data Lake Storage pomocí aktivity kopírování, a pak jste tato data agregovali do Azure Synapse Analytics. Můžete ověřit, že data byla úspěšně zapsána, když se podíváte na samotný SQL Server.

Sdílení dat s využitím Azure Data Share

V této části se dozvíte, jak nastavit novou sdílenou složku dat pomocí Azure Portal. To bude zahrnovat vytvoření nové sdílené datové složky, která bude obsahovat datové sady z Azure Data Lake Store Gen2 a Azure Synapse Analytics. Pak nakonfigurujete plán snímků, který uživatelům dat poskytne možnost automaticky aktualizovat data, která s nimi sdílíte. Pak pozvete příjemce do sdílené datové složky.

Jakmile vytvoříte sdílenou složku dat, přepnete klobouky a stanete se příjemcem dat. Jako příjemce dat si projdete tok přijetí pozvánky ke sdílené datové složce, nakonfigurujete, kam chcete data přijmout, a namapujete datové sady do různých umístění úložiště. Pak aktivujete snímek, který zkopíruje data, která s vámi někdo sdílí, do zadaného cíle.

Sdílení dat (tok zprostředkovatele dat)

  1. Otevřete Azure Portal v Microsoft Edge nebo Google Chrome.

  2. Pomocí vyhledávacího panelu v horní části stránky vyhledejte Sdílené složky dat.

    Reklamy na portálu

  3. Vyberte účet sdílené datové složky s poskytovatelem v názvu. Například DataProvider0102.

  4. Vyberte Začít sdílet data.

    Zahájení sdílení

  5. Výběrem +Vytvořit spusťte konfiguraci nové sdílené datové složky.

  6. V části Název sdílené složky zadejte název podle svého výběru. Jedná se o název sdílené složky, který uvidí příjemce dat, proto ho nezapomeňte pojmenovat popisně, například TaxiData.

  7. V části Popis vložte větu, která popisuje obsah sdílené datové složky. Sdílená data budou obsahovat globální data o jízdách taxíkem, která jsou uložená v řadě obchodů, včetně Azure Synapse Analytics a Azure Data Lake Store.

  8. V části Podmínky použití zadejte sadu podmínek, které chcete, aby spotřebitel údajů dodržoval. Mezi příklady patří "Nedistribuovat tato data mimo vaši organizaci" nebo "Odkazovat na právní smlouvu".

    Sdílet podrobnosti

  9. Vyberte Pokračovat.

  10. Vyberte Přidat datové sady.

    Přidání datové sady 1

  11. Vyberte Azure Synapse Analytics a vyberte tabulku z Azure Synapse Analytics, do které přistály vaše transformace ADF.

    Přidání datové sady SQL

  12. Než budete moct pokračovat, dostanete skript ke spuštění. Zadaný skript vytvoří uživatele v databázi SQL, aby se služba Azure Data Share MSI mohla ověřit jeho jménem.

Důležité

Před spuštěním skriptu se musíte nastavit jako Správa služby Active Directory pro SQL Server.

  1. Otevřete novou kartu a přejděte na Azure Portal. Zkopírujte zadaný skript a vytvořte v databázi uživatele, ze kterého chcete sdílet data. Uděláte to tak, že se přihlásíte k databázi EDW pomocí Průzkumníka dotazů (Preview) s využitím ověřování Azure AD.

    Skript budete muset upravit tak, aby byl vytvořený uživatel obsažen v hranatých závorkách. Příklad:

    create user [dataprovider-xxxx] from external log in; exec sp_addrolemember db_owner, [dataprovider-xxxx];

  2. Přejděte zpět na azure Data Share, kde jste do sdílené datové složky přidávali datové sady.

  3. Vyberte EDW a pak jako tabulku vyberte AggregatedTaxiData .

  4. Vyberte Přidat datovou sadu.

    Teď máme tabulku SQL, která je součástí naší datové sady. V dalším kroku přidáme další datové sady z Azure Data Lake Store.

  5. Vyberte Přidat datovou sadu a pak Azure Data Lake Store Gen2.

    Přidání adls datové sady

  6. Vyberte Další.

  7. Rozbalte wwtaxidata. Rozbalte položku Data bostonského taxislužby. Všimněte si, že můžete sdílet až na úroveň souboru.

  8. Výběrem složky Data bostonského taxislužby přidejte celou složku do sdílené datové složky.

  9. Vyberte Přidat datové sady.

  10. Zkontrolujte přidané datové sady. Do sdílené datové složky byste měli mít přidanou tabulku SQL a složku ADLS Gen2.

  11. Vyberte Pokračovat.

  12. Na této obrazovce můžete přidat příjemce do sdílené datové složky. Příjemci, které přidáte, dostanou pozvánky ke sdílené datové složce. Pro účely tohoto cvičení musíte přidat 2 e-mailové adresy:

    1. E-mailová adresa předplatného Azure, ve kterém se nacházíte.

      Přidání příjemců

    2. Přidejte příjemce fiktivních dat s názvem janedoe@fabrikam.com.

  13. Na této obrazovce můžete nakonfigurovat nastavení snímku pro příjemce dat. To jim umožní dostávat pravidelné aktualizace vašich dat v intervalu, který určíte.

  14. Zkontrolujte plán snímků a pomocí rozevíracího seznamu Opakování nakonfigurujte hodinové aktualizace dat.

  15. Vyberte Vytvořit.

    Teď máte aktivní sdílenou datovou složku. Pojďme se podívat, co vidíte jako poskytovatel dat při vytváření sdílené datové složky.

  16. Vyberte sdílenou dat, kterou jste vytvořili, s názvem DataProvider. Můžete na ni přejít tak, že v Data Share vyberete Odeslané sdílené složky.

  17. Vyberte plán snímků. Pokud chcete, můžete plán snímků zakázat.

  18. Pak vyberte kartu Datové sady . Po vytvoření můžete do této sdílené datové složky přidat další datové sady.

  19. Vyberte kartu Sdílet předplatná . Zatím neexistují žádná předplatná sdílených složek, protože příjemce dat ještě nepřijal vaši pozvánku.

  20. Přejděte na kartu Pozvánky . Tady uvidíte seznam nevyřízených pozvánek.

    Nevyřízené pozvánky

  21. Vyberte pozvánku na janedoe@fabrikam.com. Vyberte Odstranit. Pokud příjemce pozvánku ještě nepřijal, už to nebude moct udělat.

  22. Vyberte kartu Historie . Zatím se nic nezobrazuje, protože váš příjemce dat ještě nepřijal vaši pozvánku a neaktivoval snímek.

Příjem dat (tok příjemce dat)

Teď, když jsme si prošli sdílenou datovou složku, jsme připraveni přepnout kontext a nosit svůj klobouk pro spotřebitele dat.

Teď byste měli mít v doručené poště pozvánku Data Share Azure z Microsoft Azure. Spusťte Outlook Web Access (outlook.com) a přihlaste se pomocí přihlašovacích údajů zadaných pro vaše předplatné Azure.

V e-mailu, který jste měli dostat, vyberte Zobrazit pozvánku >. V tuto chvíli budete simulovat prostředí příjemce dat při přijímání pozvánky poskytovatelů dat do jejich sdílené datové složky.

Email pozvánka

Může se zobrazit výzva k výběru předplatného. Ujistěte se, že jste vybrali předplatné, se kterým jste pracovali v tomto testovacím prostředí.

  1. Vyberte pozvánku s názvem DataProvider.

  2. Na této obrazovce Pozvánka si všimnete různých podrobností o sdílené složce dat, kterou jste dříve nakonfigurovali jako poskytovatele dat. Projděte si podrobnosti a přijměte podmínky použití, pokud jsou uvedené.

  3. Vyberte předplatné a skupinu prostředků, které už pro vaše testovací prostředí existují.

  4. V části Účet sdílené datové složky vyberte DataConsumer. Můžete také vytvořit nový účet sdílené datové složky.

  5. Vedle položky Přijatý název sdílené složky si všimnete, že výchozí název sdílené složky je název zadaný poskytovatelem dat. Dejte sdílené složce popisný název, který popisuje data, která se chystáte přijmout, například TaxiDataShare.

    Pozvánka přijímá.

  6. Můžete zvolit Možnost Přijmout a nakonfigurovat hned nebo Přijmout a nakonfigurovat později. Pokud se rozhodnete přijmout a nakonfigurovat teď, zadáte účet úložiště, do kterého se mají kopírovat všechna data. Pokud se později rozhodnete přijmout a nakonfigurovat, datové sady ve sdílené složce se nenamapují a budete je muset namapovat ručně. Tuto možnost zvolíme později.

  7. Vyberte Přijmout a nakonfigurujte později.

    Při konfiguraci této možnosti se vytvoří předplatné sdílené složky, ale data se nikam nedostanou, protože nebyl namapován žádný cíl.

    V dalším kroku nakonfigurujeme mapování datové sady pro sdílenou datovou složku.

  8. Vyberte přijatou sdílenou složku (název, který jste zadali v kroku 5).

    Snímek triggeru se zobrazí šedě, ale sdílená složka je aktivní.

  9. Vyberte kartu Datové sady . Všimněte si, že každá datová sada je nenamapovaná, což znamená, že nemá žádný cíl pro kopírování dat.

    nenamapované datové sady

  10. Vyberte Azure Synapse Analytická tabulka a pak vyberte + Mapovat na cíl.

  11. Na pravé straně obrazovky vyberte rozevírací seznam Cílový datový typ .

    Data SQL můžete mapovat na širokou škálu úložišť dat. V tomto případě se budeme mapovat na databázi Azure SQL.

    mapování

    (Volitelné) Jako cílový datový typ vyberte Azure Data Lake Store Gen2 .

    (Volitelné) Vyberte předplatné, skupinu prostředků a účet úložiště, se kterým jste pracovali.

    (Volitelné) Můžete se rozhodnout přijímat data do data lake ve formátu CSV nebo parquet.

  12. Vedle položky Cílový datový typ vyberte Azure SQL Databáze.

  13. Vyberte předplatné, skupinu prostředků a účet úložiště, se kterým jste pracovali.

    mapovat na SQL

  14. Než budete moct pokračovat, budete muset v SQL Server vytvořit nového uživatele spuštěním poskytnutého skriptu. Nejprve zkopírujte skript, který jste zadali do schránky.

  15. Otevřete novou kartu Azure Portal. Nezavírejte stávající kartu, protože se k ní budete muset za chvíli vrátit.

  16. Na nové kartě, kterou jste otevřeli, přejděte do databází SQL.

  17. Vyberte databázi SQL (ve vašem předplatném by měla být jenom jedna). Dávejte pozor, abyste nevybírejli datový sklad.

  18. Výběr editoru dotazů (Preview)

  19. K přihlášení k editoru dotazů použijte ověřování Azure AD.

  20. Spusťte dotaz zadaný ve sdílené datové složce (zkopírovaný do schránky v kroku 14).

    Tento příkaz umožňuje službě Azure Data Share používat spravované identity pro služby Azure k ověření v SQL Server, aby do ní bylo možné kopírovat data.

  21. Zpět na původní kartu a vyberte Mapovat na cíl.

  22. Dále vyberte složku Azure Data Lake Gen2, která je součástí datové sady, a namapujte ji na účet Azure Blob Storage.

    Úložiště

    Když máte namapované všechny datové sady, můžete začít přijímat data od poskytovatele dat.

    Mapovány

  23. Vyberte Podrobnosti.

    Všimněte si, že snímek triggeru už není neaktivní, protože sdílená složka dat teď obsahuje cíle, do které se dá kopírovat.

  24. Vyberte Aktivovat snímek –> úplná kopie.

    Aktivační událost

    Tím se začnou kopírovat data do nového účtu sdílené složky dat. V reálném scénáři by tato data pocházela od třetí strany.

    Zobrazení dat bude trvat přibližně 3 až 5 minut. Průběh můžete sledovat kliknutím na kartu Historie .

    Během čekání přejděte do původní sdílené datové složky (DataProvider) a zobrazte stav karty Sdílet předplatná a historii . Všimněte si, že teď existuje aktivní předplatné a jako poskytovatel dat můžete také monitorovat, kdy příjemce dat začal přijímat data sdílená s ním.

  25. Vraťte se do sdílené datové složky příjemce dat. Jakmile je stav triggeru úspěšný, přejděte do cílové databáze SQL a data lake a podívejte se, že data přistála v příslušných úložištích.

Blahopřejeme, dokončili jste cvičení!