Integrace dat pomocí Azure Data Factory a Azure Data Share
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Když se zákazníci pouštějí do svých moderních projektů datových skladů a analýz, vyžadují nejen více dat, ale také větší přehled o svých datech napříč jejich datovými aktivy. V tomto workshopu se dozvíte, jak vylepšení Azure Data Factory a Azure Data Share zjednodušit integraci a správu dat v Azure.
Od povolení ETL/ELT bez kódu až po vytvoření komplexního zobrazení dat, vylepšení v Azure Data Factory umožní vašim datovým inženýrům bezpečně přivést do vašeho podniku více dat, a tím i větší hodnotu. Azure Data Share vám umožní provádět sdílení mezi firmami řízeným způsobem.
V tomto workshopu použijete Azure Data Factory (ADF) k ingestování dat z Azure SQL Database do Azure Data Lake Storage Gen2 (ADLS Gen2). Jakmile data uložíte do jezera, transformujete je pomocí mapování toků dat, nativní transformační služby datové továrny a potopíte je do Azure Synapse Analytics. Pak tabulku nasdílíte s transformovanými daty spolu s dalšími daty pomocí Azure Data Share.
Data použitá v této laboratoři jsou data taxislužby v New Yorku. Pokud ho chcete importovat do databáze v SQL Database, stáhněte si soubor bacpac taxi-data.
Požadavky
Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
Azure SQL Database: Pokud nemáte databázi SQL, přečtěte si, jak vytvořit účet DATABÁZE SQL.
Azure Data Lake Storage Gen2 účtu úložiště: Pokud nemáte účet úložiště ADLS Gen2, přečtěte si, jak vytvořit účet úložiště ADLS Gen2.
Azure Synapse Analytics: Pokud nemáte Azure Synapse Analytics, přečtěte si, jak vytvořit instanci Azure Synapse Analytics.
Azure Data Factory: Pokud jste ještě nevytvořili datovou továrnu, přečtěte si, jak vytvořit datovou továrnu.
Azure Data Share: Pokud jste sdílenou složku dat nevytvořili, přečtěte si, jak vytvořit sdílenou složku dat.
Nastavení prostředí Azure Data Factory
V této části se dozvíte, jak získat přístup k uživatelskému prostředí Azure Data Factory (UX ADF) z Azure Portal. V uživatelském prostředí ADF nakonfigurujete pro každé úložiště dat, které používáme, tři propojené služby: Azure SQL DB, ADLS Gen2 a Azure Synapse Analytics.
V Azure Data Factory propojené služby definují informace o připojení k externím prostředkům. Azure Data Factory aktuálně podporuje více než 85 konektorů.
Otevření uživatelského prostředí Azure Data Factory
Otevřete Azure Portal v prohlížeči Microsoft Edge nebo Google Chrome.
Pomocí panelu hledání v horní části stránky vyhledejte "Datové továrny".
Výběrem prostředku datové továrny otevřete jeho prostředky v levém podokně.
Vyberte Otevřít Azure Data Factory Studio. Data Factory Studio je také přístupné přímo na adf.azure.com.
Budete přesměrováni na domovskou stránku uživatelského rozhraní ADF. Tato stránka obsahuje rychlé starty, instruktážní videa a odkazy na kurzy, které vám umožní seznámit se s koncepty datové továrny. Pokud chcete začít vytvářet, vyberte ikonu tužky na levém bočním panelu.
Vytvoření propojené služby Azure SQL Database
Pokud chcete vytvořit propojenou službu, vyberte na levém bočním panelu Spravovat centrum, v podokně Připojení vyberte Propojené služby a pak vyberte Nový a přidejte novou propojenou službu.
První propojená služba, kterou nakonfigurujete, je Azure SQL DB. K filtrování seznamu úložiště dat můžete použít panel hledání. Vyberte na dlaždici Azure SQL Database (Databáze) a vyberte Continue (Pokračovat).
V podokně konfigurace DATABÁZE SQL zadejte jako název propojené služby "SQLDB". Zadejte svoje přihlašovací údaje, aby se datová továrna mohla připojit k databázi. Pokud používáte ověřování SQL, zadejte do názvu serveru, databáze, svého uživatelského jména a hesla. Výběrem možnosti Testovat připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.
Vytvoření propojené služby Azure Synapse Analytics
Stejným postupem přidáte propojenou službu Azure Synapse Analytics. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Synapse Analytics a vyberte Pokračovat.
V podokně konfigurace propojené služby jako název propojené služby zadejte SQLDW. Zadejte svoje přihlašovací údaje, aby se datová továrna mohla připojit k databázi. Pokud používáte ověřování SQL, zadejte do názvu serveru, databáze, svého uživatelského jména a hesla. Kliknutím na Test připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.
Vytvoření propojené služby Azure Data Lake Storage Gen2
Poslední propojená služba potřebná pro toto testovací prostředí je Azure Data Lake Storage gen2. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte Pokračovat.
V podokně konfigurace propojené služby jako název propojené služby zadejte ADLSGen2. Pokud používáte ověřování pomocí klíče účtu, vyberte v rozevíracím seznamu Název účtu úložiště svůj účet úložiště ADLS Gen2. Kliknutím na Test připojení můžete ověřit správnost informací o připojení. Po dokončení vyberte Vytvořit.
Zapnutí režimu ladění toku dat
V části Transformace dat pomocí mapování toku dat budete vytvářet toky dat mapování. Osvědčeným postupem před vytvářením toků dat mapování je zapnout režim ladění, který umožňuje otestovat logiku transformace v aktivním clusteru Spark v řádu sekund.
Pokud chcete zapnout ladění, vyberte posuvník ladění toku dat na horním panelu plátna toku dat nebo plátna kanálu, pokud máte aktivity toku dat . Při zobrazení potvrzovacího dialogového okna vyberte OK . Cluster se spustí přibližně za 5 až 7 minut. Pokračujte k Ingestování dat z Azure SQL DB do ADLS Gen2 pomocí aktivity kopírování během inicializace.
Ingestování dat pomocí aktivity kopírování
V této části vytvoříte kanál s aktivitou kopírování, která ingestuje jednu tabulku z databáze Azure SQL do účtu úložiště ADLS Gen2. Dozvíte se, jak přidat kanál, nakonfigurovat datovou sadu a ladit kanál prostřednictvím uživatelského prostředí ADF. Vzor konfigurace použitý v této části se dá použít ke kopírování z relačního úložiště dat do souborového úložiště dat.
V Azure Data Factory je kanál logickým seskupením aktivit, které společně provádějí úlohu. Aktivita definuje operaci, která se má s vašimi daty provést. Datová sada odkazuje na data, která chcete použít v propojené službě.
Vytvoření kanálu s aktivitou kopírování
V podokně prostředků továrny výběrem ikony plus otevřete nabídku nového prostředku. Vyberte Kanál.
Na kartě Obecné na plátně kanálu pojmenujte kanál něco popisného, například IngestAndTransformTaxiData.
V podokně aktivit plátna kanálu otevřete akordeon Přesunout a transformovat a přetáhněte aktivitu Kopírování dat na plátno. Dejte aktivitě kopírování popisný název, například "IngestIntoADLS".
Konfigurace zdrojové datové sady Azure SQL DB
Vyberte na kartě Zdroj aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nová. Vaším zdrojem bude tabulka dbo. TripData se nachází v propojené službě SQLDB nakonfigurované dříve.
Vyhledejte Azure SQL Database a vyberte Pokračovat.
Volejte datovou sadu TripData. Jako propojenou službu vyberte SQLDB. Vyberte název tabulky dbo. TripData' z rozevíracího seznamu názvů tabulek. Importujte schéma z připojení nebo úložiště. Po dokončení vyberte OK.
Úspěšně jste vytvořili zdrojovou datovou sadu. Ujistěte se, že v nastavení zdroje je v poli pro použití dotazu vybraná výchozí hodnota Tabulka .
Konfigurace datové sady jímky ADLS Gen2
Vyberte na kartě Jímka aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nová.
Vyhledejte Azure Data Lake Storage Gen2 a vyberte Pokračovat.
V podokně vybrat formát vyberte Při psaní do souboru CSV vyberte Text s oddělovači . Vyberte Pokračovat.
Datovou sadu jímky pojmenujte TripDataCSV. Jako propojenou službu vyberte ADLSGen2. Zadejte, kam chcete soubor CSV napsat. Data můžete například zapsat do souboru
trip-data.csv
v kontejnerustaging-container
. Nastavte První řádek jako záhlaví na true, protože chcete, aby výstupní data měla záhlaví. Vzhledem k tomu, že v cíli zatím neexistuje žádný soubor, nastavte Schéma importu na Žádný. Po dokončení vyberte OK.
Testování aktivity kopírování pomocí spuštění ladění kanálu
Pokud chcete ověřit, že vaše aktivita kopírování funguje správně, vyberte Ladit v horní části plátna kanálu a spusťte spuštění ladění. Spuštění ladění umožňuje otestovat kanál buď od konce do konce, nebo až do zarážky, než ho publikujete do služby datové továrny.
Pokud chcete monitorovat spuštění ladění, přejděte na plátně kanálu na kartu Výstup . Obrazovka monitorování se automaticky zobrazí každých 20 sekund nebo když ručně vyberete tlačítko aktualizovat. Aktivita kopírování má speciální monitorovací zobrazení, ke kterému se dostanete kliknutím na ikonu brýle ve sloupci Akce .
Zobrazení monitorování kopírování poskytuje podrobnosti o provádění aktivity a charakteristiky výkonu. Můžete zobrazit informace, jako jsou čtení/zápis dat, čtení/zápis řádků, čtení/zápis souborů a propustnost. Pokud jste všechno nakonfigurovali správně, měli byste v jímce ADLS vidět 49 999 řádků zapsaných do jednoho souboru.
Než přejdete k další části, doporučujeme publikovat změny ve službě datové továrny kliknutím na Publikovat vše na horním panelu továrny. I když toto cvičení neprobývá, Azure Data Factory podporuje úplnou integraci Gitu. Integrace Gitu umožňuje správu verzí, iterativní ukládání v úložišti a spolupráci na datové továrně. Další informace najdete v tématu správa zdrojového kódu v Azure Data Factory.
Transformace dat s využitím toků dat mapování
Teď, když jste úspěšně zkopírovali data do Azure Data Lake Storage, je čas tato data spojit a agregovat je do datového skladu. Použijeme mapování toku dat Azure Data Factory vizuálně navržené transformační služby. Mapování toků dat umožňuje uživatelům vyvíjet logiku transformace bez kódu a spouštět je v clusterech Spark spravovaných službou ADF.
Tok dat vytvořený v tomto kroku uvnitř spojí datovou sadu TripDataCSV vytvořenou v předchozí části s tabulkou dbo. TripFares' uložené v SQLDB na základě čtyř klíčových sloupců. Potom se data agregují na základě sloupcepayment_type
, aby se vypočítal průměr určitých polí a zapisují se do tabulky Azure Synapse Analytics.
Přidání aktivity toku dat do kanálu
V podokně aktivit plátna kanálu otevřete akordeon Přesunout a transformovat a přetáhněte aktivitu Tok dat na plátno.
V bočním podokně, které se otevře, vyberte Vytvořit nový tok dat a zvolte Mapování toku dat. Vyberte OK.
Budete přesměrováni na plátno toku dat, kde budete vytvářet logiku transformace. Na kartě Obecné pojmenujte tok dat JoinAndAggregateData.
Konfigurace zdroje csv dat o cestě
První věc, kterou chcete udělat, je nakonfigurovat dvě zdrojové transformace. První zdroj bude odkazovat na datovou sadu TripDataCSV DelimitedText. Pokud chcete přidat zdrojovou transformaci, vyberte na plátně pole Přidat zdroj .
Pojmenujte zdroj TripDataCSV a v rozevíracím seznamu zdroje vyberte datovou sadu TripDataCSV. Pokud si pamatujete, při vytváření této datové sady jste schéma původně neimportovali, protože tam nebyla žádná data. Vzhledem k tomu
trip-data.csv
, že teď existuje, vyberte Upravit a přejděte na kartu nastavení datové sady.Přejděte na kartu Schéma a vyberte Importovat schéma. Vyberte Z připojení nebo úložiště a importujte přímo z úložiště souborů. Mělo by se zobrazit 14 sloupců typu řetězec.
Zpět toku dat JoinAndAggregateData. Pokud se váš ladicí cluster spustil (označený zeleným kroužkem vedle posuvníku ladění), můžete získat snímek dat na kartě Náhled dat . Pokud chcete načíst náhled dat, vyberte Aktualizovat .
Poznámka
Náhled dat nezapisuje data.
Konfigurace tarifu jízdy ve zdroji databáze SQL
Druhý zdroj, který přidáváte, bude odkazovat na tabulku DATABÁZE SQL dbo. TripFares'. Pod zdrojem TripDataCSV bude další pole Přidat zdroj . Výběrem ho přidáte novou zdrojovou transformaci.
Tento zdroj pojmenujte TripFaresSQL. Vyberte Nový vedle pole zdrojové datové sady a vytvořte novou datovou sadu DATABÁZE SQL.
Vyberte dlaždici Azure SQL Database (Databáze Azure SQL) a vyberte Continue (Pokračovat). Poznámka: Můžete si všimnout, že mnoho konektorů v datové toku se v mapování toku dat nepodporuje. Pokud chcete transformovat data z jednoho z těchto zdrojů, ingestujte je do podporovaného zdroje pomocí aktivity kopírování.
Volejte datovou sadu TripFares. Jako propojenou službu vyberte SQLDB. Vyberte název tabulky dbo. TripFares' z rozevíracího seznamu názvů tabulek. Importujte schéma z připojení nebo úložiště. Po dokončení vyberte OK.
Pokud chcete ověřit data, načtěte náhled dat na kartě Náhled dat .
Vnitřní spojení TripDataCSV a TripFaresSQL
Pokud chcete přidat novou transformaci, vyberte ikonu plus v pravém dolním rohu TripDataCSV. V části Více vstupů a výstupů vyberte Připojit.
Pojmenujte transformaci spojení InnerJoinWithTripFares. V pravém rozevíracím seznamu datového proudu vyberte TripFaresSQL. Jako typ spojení vyberte Vnitřní . Další informace o různých typech spojení v mapování toku dat najdete v tématu Typy spojení.
V rozevíracím seznamu Podmínky připojení vyberte, které sloupce chcete spárovat. Pokud chcete přidat další podmínku spojení, vyberte ikonu plus vedle existující podmínky. Ve výchozím nastavení jsou všechny podmínky spojení kombinovány s operátorem AND, což znamená, že pro shodu musí být splněny všechny podmínky. V tomto cvičení chceme shodovat sloupce
medallion
,hack_license
,vendor_id
apickup_datetime
Ověřte, že jste úspěšně připojili 25 sloupců společně s náhledem dat.
Agregace podle payment_type
Po dokončení transformace spojení přidejte agregační transformaci kliknutím na ikonu plus vedle InnerJoinWithTripFares. V části Modifikátor schématu zvolte Agregovat.
Pojmenujte svou agregační transformaci AggregateByPaymentType. Vyberte
payment_type
jako seskupovat podle sloupce.Přejděte na kartu Agregace . Tady zadáte dvě agregace:
- Průměrné tarify seskupené podle typu platby
- Celková vzdálenost cesty seskupené podle typu platby
Nejprve vytvoříte výraz průměrného tarifu. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "average_fare".
Pokud chcete zadat agregační výraz, vyberte modré pole s popiskem Enter expression. Otevře se tvůrce výrazů toku dat, nástroj sloužící k vizuálnímu vytváření výrazů toku dat pomocí vstupního schématu, předdefinovaných funkcí a operací a uživatelsky definovaných parametrů. Další informace o možnostech tvůrce výrazů najdete v dokumentaci ke tvůrci výrazů.
Pokud chcete získat průměrnou jízdu, pomocí
avg()
agregační funkce agregujtetotal_amount
přetypování sloupce na celé číslo pomocítoInteger()
. V jazyce výrazu toku dat je definován jakoavg(toInteger(total_amount))
. Až budete hotovi, vyberte Uložit a dokončete ho.Pokud chcete přidat další agregační výraz, vyberte ikonu plus vedle
average_fare
. Vyberte Přidat sloupec.Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "total_trip_distance". Stejně jako v posledním kroku otevřete tvůrce výrazů a zadejte ho do výrazu.
Pokud chcete získat celkovou vzdálenost jízdy, pomocí
sum()
agregační funkce agregujtetrip_distance
přetypování sloupce na celé číslo pomocítoInteger()
. V jazyce výrazu toku dat je definován jakosum(toInteger(trip_distance))
. Až budete hotovi, vyberte Uložit a dokončete ho.Otestujte logiku transformace na kartě Náhled dat . Jak vidíte, existuje výrazně méně řádků a sloupců než dříve. Pouze tři sloupce seskupování podle a agregace definované v této transformaci budou pokračovat v podřízené části. Vzhledem k tomu, že v ukázce je pouze pět skupin typů plateb, zobrazí se jenom pět řádků.
Konfigurace jímky Azure Synapse Analytics
Teď, když jsme dokončili logiku transformace, jsme připraveni potopit data v tabulce Azure Synapse Analytics. V části Cíl přidejte transformaci jímky.
Pojmenujte jímku SQLDWSink. Vyberte Nový vedle pole datové sady jímky a vytvořte novou datovou sadu Azure Synapse Analytics.
Vyberte dlaždici Azure Synapse Analytics a vyberte Pokračovat.
Zavolejte datovou sadu AggregatedTaxiData. Jako propojenou službu vyberte SQLDW. Vyberte Vytvořit novou tabulku a pojmenujte novou tabulku dbo. AggregateTaxiData. Po dokončení vyberte OK.
V jímce přejděte na kartu Nastavení . Vzhledem k tomu, že vytváříme novou tabulku, musíme vybrat Možnost Znovu vytvořit tabulku pod akcí tabulky. Zrušte zaškrtnutí políčka Povolit pracovní, která přepíná, jestli vkládáme řádek po řádku nebo v dávce.
Úspěšně jste vytvořili tok dat. Teď je čas ji spustit v aktivitě kanálu.
Kompletní ladění kanálu
Zpět na kartu pro kanál IngestAndTransformData. Všimněte si zeleného rámečku aktivity kopírování IngestIntoADLS. Přetáhněte ji na aktivitu toku dat JoinAndAggregateData. Tím se vytvoří "při úspěchu", což způsobí, že aktivita toku dat se spustí pouze v případě, že je kopírování úspěšné.
Stejně jako u aktivity kopírování vyberte Ladit a spusťte spuštění ladění. V případě spuštění ladění použije aktivita toku dat aktivní ladicí cluster místo spouštění nového clusteru. Spuštění tohoto kanálu bude trvat něco málo přes minutu.
Stejně jako aktivita kopírování má tok dat zvláštní zobrazení monitorování, ke které při dokončení aktivity přistupuje ikona brýlí.
V zobrazení monitorování vidíte zjednodušený graf toku dat spolu s časy provádění a řádky v jednotlivých fázích provádění. Pokud to uděláte správně, měli byste v této aktivitě agregovat 49 999 řádků do pěti řádků.
Výběrem transformace můžete získat další podrobnosti o jejím provádění, jako jsou informace o dělení a nové, aktualizované nebo vyřazené sloupce.
Dokončili jste část tohoto testovacího prostředí pro vytváření dat. Pokud chcete prostředky zprovoznit pomocí triggerů, publikujte je. Úspěšně jste spustili kanál, který ingestoval data z databáze Azure SQL do Azure Data Lake Storage pomocí aktivity kopírování, a pak jste tato data agregovali do Azure Synapse Analytics. Můžete ověřit, že data byla úspěšně zapsána, když se podíváte na samotný SQL Server.
Sdílení dat s využitím Azure Data Share
V této části se dozvíte, jak nastavit novou sdílenou složku dat pomocí Azure Portal. To bude zahrnovat vytvoření nové sdílené datové složky, která bude obsahovat datové sady z Azure Data Lake Store Gen2 a Azure Synapse Analytics. Pak nakonfigurujete plán snímků, který uživatelům dat poskytne možnost automaticky aktualizovat data, která s nimi sdílíte. Pak pozvete příjemce do sdílené datové složky.
Jakmile vytvoříte sdílenou složku dat, přepnete klobouky a stanete se příjemcem dat. Jako příjemce dat si projdete tok přijetí pozvánky ke sdílené datové složce, nakonfigurujete, kam chcete data přijmout, a namapujete datové sady do různých umístění úložiště. Pak aktivujete snímek, který zkopíruje data, která s vámi někdo sdílí, do zadaného cíle.
Sdílení dat (tok zprostředkovatele dat)
Otevřete Azure Portal v Microsoft Edge nebo Google Chrome.
Pomocí vyhledávacího panelu v horní části stránky vyhledejte Sdílené složky dat.
Vyberte účet sdílené datové složky s poskytovatelem v názvu. Například DataProvider0102.
Vyberte Začít sdílet data.
Výběrem +Vytvořit spusťte konfiguraci nové sdílené datové složky.
V části Název sdílené složky zadejte název podle svého výběru. Jedná se o název sdílené složky, který uvidí příjemce dat, proto ho nezapomeňte pojmenovat popisně, například TaxiData.
V části Popis vložte větu, která popisuje obsah sdílené datové složky. Sdílená data budou obsahovat globální data o jízdách taxíkem, která jsou uložená v řadě obchodů, včetně Azure Synapse Analytics a Azure Data Lake Store.
V části Podmínky použití zadejte sadu podmínek, které chcete, aby spotřebitel údajů dodržoval. Mezi příklady patří "Nedistribuovat tato data mimo vaši organizaci" nebo "Odkazovat na právní smlouvu".
Vyberte Pokračovat.
Vyberte Přidat datové sady.
Vyberte Azure Synapse Analytics a vyberte tabulku z Azure Synapse Analytics, do které přistály vaše transformace ADF.
Než budete moct pokračovat, dostanete skript ke spuštění. Zadaný skript vytvoří uživatele v databázi SQL, aby se služba Azure Data Share MSI mohla ověřit jeho jménem.
Důležité
Před spuštěním skriptu se musíte nastavit jako Správa služby Active Directory pro SQL Server.
Otevřete novou kartu a přejděte na Azure Portal. Zkopírujte zadaný skript a vytvořte v databázi uživatele, ze kterého chcete sdílet data. Uděláte to tak, že se přihlásíte k databázi EDW pomocí Průzkumníka dotazů (Preview) s využitím ověřování Azure AD.
Skript budete muset upravit tak, aby byl vytvořený uživatel obsažen v hranatých závorkách. Příklad:
create user [dataprovider-xxxx] from external log in; exec sp_addrolemember db_owner, [dataprovider-xxxx];
Přejděte zpět na azure Data Share, kde jste do sdílené datové složky přidávali datové sady.
Vyberte EDW a pak jako tabulku vyberte AggregatedTaxiData .
Vyberte Přidat datovou sadu.
Teď máme tabulku SQL, která je součástí naší datové sady. V dalším kroku přidáme další datové sady z Azure Data Lake Store.
Vyberte Přidat datovou sadu a pak Azure Data Lake Store Gen2.
Vyberte Další.
Rozbalte wwtaxidata. Rozbalte položku Data bostonského taxislužby. Všimněte si, že můžete sdílet až na úroveň souboru.
Výběrem složky Data bostonského taxislužby přidejte celou složku do sdílené datové složky.
Vyberte Přidat datové sady.
Zkontrolujte přidané datové sady. Do sdílené datové složky byste měli mít přidanou tabulku SQL a složku ADLS Gen2.
Vyberte Pokračovat.
Na této obrazovce můžete přidat příjemce do sdílené datové složky. Příjemci, které přidáte, dostanou pozvánky ke sdílené datové složce. Pro účely tohoto cvičení musíte přidat 2 e-mailové adresy:
E-mailová adresa předplatného Azure, ve kterém se nacházíte.
Přidejte příjemce fiktivních dat s názvem janedoe@fabrikam.com.
Na této obrazovce můžete nakonfigurovat nastavení snímku pro příjemce dat. To jim umožní dostávat pravidelné aktualizace vašich dat v intervalu, který určíte.
Zkontrolujte plán snímků a pomocí rozevíracího seznamu Opakování nakonfigurujte hodinové aktualizace dat.
Vyberte Vytvořit.
Teď máte aktivní sdílenou datovou složku. Pojďme se podívat, co vidíte jako poskytovatel dat při vytváření sdílené datové složky.
Vyberte sdílenou dat, kterou jste vytvořili, s názvem DataProvider. Můžete na ni přejít tak, že v Data Share vyberete Odeslané sdílené složky.
Vyberte plán snímků. Pokud chcete, můžete plán snímků zakázat.
Pak vyberte kartu Datové sady . Po vytvoření můžete do této sdílené datové složky přidat další datové sady.
Vyberte kartu Sdílet předplatná . Zatím neexistují žádná předplatná sdílených složek, protože příjemce dat ještě nepřijal vaši pozvánku.
Přejděte na kartu Pozvánky . Tady uvidíte seznam nevyřízených pozvánek.
Vyberte pozvánku na janedoe@fabrikam.com. Vyberte Odstranit. Pokud příjemce pozvánku ještě nepřijal, už to nebude moct udělat.
Vyberte kartu Historie . Zatím se nic nezobrazuje, protože váš příjemce dat ještě nepřijal vaši pozvánku a neaktivoval snímek.
Příjem dat (tok příjemce dat)
Teď, když jsme si prošli sdílenou datovou složku, jsme připraveni přepnout kontext a nosit svůj klobouk pro spotřebitele dat.
Teď byste měli mít v doručené poště pozvánku Data Share Azure z Microsoft Azure. Spusťte Outlook Web Access (outlook.com) a přihlaste se pomocí přihlašovacích údajů zadaných pro vaše předplatné Azure.
V e-mailu, který jste měli dostat, vyberte Zobrazit pozvánku >. V tuto chvíli budete simulovat prostředí příjemce dat při přijímání pozvánky poskytovatelů dat do jejich sdílené datové složky.
Může se zobrazit výzva k výběru předplatného. Ujistěte se, že jste vybrali předplatné, se kterým jste pracovali v tomto testovacím prostředí.
Vyberte pozvánku s názvem DataProvider.
Na této obrazovce Pozvánka si všimnete různých podrobností o sdílené složce dat, kterou jste dříve nakonfigurovali jako poskytovatele dat. Projděte si podrobnosti a přijměte podmínky použití, pokud jsou uvedené.
Vyberte předplatné a skupinu prostředků, které už pro vaše testovací prostředí existují.
V části Účet sdílené datové složky vyberte DataConsumer. Můžete také vytvořit nový účet sdílené datové složky.
Vedle položky Přijatý název sdílené složky si všimnete, že výchozí název sdílené složky je název zadaný poskytovatelem dat. Dejte sdílené složce popisný název, který popisuje data, která se chystáte přijmout, například TaxiDataShare.
Můžete zvolit Možnost Přijmout a nakonfigurovat hned nebo Přijmout a nakonfigurovat později. Pokud se rozhodnete přijmout a nakonfigurovat teď, zadáte účet úložiště, do kterého se mají kopírovat všechna data. Pokud se později rozhodnete přijmout a nakonfigurovat, datové sady ve sdílené složce se nenamapují a budete je muset namapovat ručně. Tuto možnost zvolíme později.
Vyberte Přijmout a nakonfigurujte později.
Při konfiguraci této možnosti se vytvoří předplatné sdílené složky, ale data se nikam nedostanou, protože nebyl namapován žádný cíl.
V dalším kroku nakonfigurujeme mapování datové sady pro sdílenou datovou složku.
Vyberte přijatou sdílenou složku (název, který jste zadali v kroku 5).
Snímek triggeru se zobrazí šedě, ale sdílená složka je aktivní.
Vyberte kartu Datové sady . Všimněte si, že každá datová sada je nenamapovaná, což znamená, že nemá žádný cíl pro kopírování dat.
Vyberte Azure Synapse Analytická tabulka a pak vyberte + Mapovat na cíl.
Na pravé straně obrazovky vyberte rozevírací seznam Cílový datový typ .
Data SQL můžete mapovat na širokou škálu úložišť dat. V tomto případě se budeme mapovat na databázi Azure SQL.
(Volitelné) Jako cílový datový typ vyberte Azure Data Lake Store Gen2 .
(Volitelné) Vyberte předplatné, skupinu prostředků a účet úložiště, se kterým jste pracovali.
(Volitelné) Můžete se rozhodnout přijímat data do data lake ve formátu CSV nebo parquet.
Vedle položky Cílový datový typ vyberte Azure SQL Databáze.
Vyberte předplatné, skupinu prostředků a účet úložiště, se kterým jste pracovali.
Než budete moct pokračovat, budete muset v SQL Server vytvořit nového uživatele spuštěním poskytnutého skriptu. Nejprve zkopírujte skript, který jste zadali do schránky.
Otevřete novou kartu Azure Portal. Nezavírejte stávající kartu, protože se k ní budete muset za chvíli vrátit.
Na nové kartě, kterou jste otevřeli, přejděte do databází SQL.
Vyberte databázi SQL (ve vašem předplatném by měla být jenom jedna). Dávejte pozor, abyste nevybírejli datový sklad.
Výběr editoru dotazů (Preview)
K přihlášení k editoru dotazů použijte ověřování Azure AD.
Spusťte dotaz zadaný ve sdílené datové složce (zkopírovaný do schránky v kroku 14).
Tento příkaz umožňuje službě Azure Data Share používat spravované identity pro služby Azure k ověření v SQL Server, aby do ní bylo možné kopírovat data.
Zpět na původní kartu a vyberte Mapovat na cíl.
Dále vyberte složku Azure Data Lake Gen2, která je součástí datové sady, a namapujte ji na účet Azure Blob Storage.
Když máte namapované všechny datové sady, můžete začít přijímat data od poskytovatele dat.
Vyberte Podrobnosti.
Všimněte si, že snímek triggeru už není neaktivní, protože sdílená složka dat teď obsahuje cíle, do které se dá kopírovat.
Vyberte Aktivovat snímek –> úplná kopie.
Tím se začnou kopírovat data do nového účtu sdílené složky dat. V reálném scénáři by tato data pocházela od třetí strany.
Zobrazení dat bude trvat přibližně 3 až 5 minut. Průběh můžete sledovat kliknutím na kartu Historie .
Během čekání přejděte do původní sdílené datové složky (DataProvider) a zobrazte stav karty Sdílet předplatná a historii . Všimněte si, že teď existuje aktivní předplatné a jako poskytovatel dat můžete také monitorovat, kdy příjemce dat začal přijímat data sdílená s ním.
Vraťte se do sdílené datové složky příjemce dat. Jakmile je stav triggeru úspěšný, přejděte do cílové databáze SQL a data lake a podívejte se, že data přistála v příslušných úložištích.
Blahopřejeme, dokončili jste cvičení!