Integrace dat pomocí Služby Azure Data Factory a Služby Azure Data Share
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Vzhledem k tomu, že se zákazníci pustí do svých moderních projektů datových skladů a analýz, vyžadují nejen více dat, ale také lepší přehled o svých datech napříč jejich datovými aktivy. V tomto workshopu se dozvíte, jak vylepšení služby Azure Data Factory a služby Azure Data Share zjednodušují integraci a správu dat v Azure.
Od povolení etl/ELT bez kódu k vytvoření komplexního zobrazení dat, vylepšení ve službě Azure Data Factory umožňují datovým inženýrům s jistotou přinést více dat a tím větší hodnotu pro váš podnik. Azure Data Share umožňuje provádět obchodní sdílení řízeným způsobem.
V tomto workshopu použijete Azure Data Factory (ADF) k ingestování dat z Azure SQL Database do Azure Data Lake Storage Gen2 (ADLS Gen2). Jakmile data přistanete v jezeře, transformujete je prostřednictvím mapování toků dat, nativní transformační služby datové továrny a posadíte je do Azure Synapse Analytics. Pak tabulku nasdílíte s transformovanými daty spolu s některými dalšími daty pomocí služby Azure Data Share.
Data použitá v tomto cvičení jsou data taxislužby v New Yorku. Pokud ho chcete importovat do databáze ve službě SQL Database, stáhněte si soubor bacpac s daty taxislužby. Vyberte možnost Stáhnout nezpracovaný soubor na GitHubu.
Požadavky
Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.
Azure SQL Database: Pokud nemáte Azure SQL Database, zjistěte, jak vytvořit službu SQL Database.
Účet úložiště Azure Data Lake Storage Gen2: Pokud nemáte účet úložiště ADLS Gen2, zjistěte, jak vytvořit účet úložiště ADLS Gen2.
Azure Synapse Analytics: Pokud nemáte pracovní prostor Azure Synapse Analytics, zjistěte, jak začít s Azure Synapse Analytics.
Azure Data Factory: Pokud jste nevytvořili datovou továrnu, podívejte se, jak vytvořit datovou továrnu.
Azure Data Share: Pokud jste nevytvořili sdílenou složku dat, podívejte se , jak vytvořit sdílenou složku dat.
Nastavení prostředí Azure Data Factory
V této části se dozvíte, jak získat přístup k uživatelskému prostředí služby Azure Data Factory (ADF UX) z webu Azure Portal. Jakmile budete v uživatelském prostředí ADF, nakonfigurujete tři propojené služby pro každou z úložišť dat, která používáme: Azure SQL Database, ADLS Gen2 a Azure Synapse Analytics.
V propojených službách Azure Data Factory definujte informace o připojení k externím prostředkům. Azure Data Factory aktuálně podporuje více než 85 konektorů.
Otevření uživatelského rozhraní služby Azure Data Factory
Otevřete Azure Portal v Microsoft Edgi nebo Google Chrome.
Pomocí panelu hledání v horní části stránky vyhledejte "Datové továrny".
Výběrem prostředku datové továrny otevřete jeho prostředky v levém podokně.
Vyberte Otevřít Azure Data Factory Studio. Data Factory Studio je také možné získat přístup přímo na adf.azure.com.
Budete přesměrováni na domovskou stránku ADF na webu Azure Portal. Tato stránka obsahuje rychlá zahájení, instruktážní videa a odkazy na kurzy, ve které se naučíte koncepty datové továrny. Pokud chcete začít vytvářet, vyberte ikonu tužky na levém bočním panelu.
Vytvoření propojené služby Azure SQL Database
Pokud chcete vytvořit propojenou službu, vyberte na levém bočním panelu spravovat centrum, v podokně Připojení ions vyberte Propojené služby a pak vyberte Nový a přidejte novou propojenou službu.
První propojená služba, kterou nakonfigurujete, je Azure SQL Database. K filtrování seznamu úložiště dat můžete použít panel hledání. Vyberte dlaždici Azure SQL Database a vyberte pokračovat.
V podokně konfigurace služby SQL Database zadejte jako název propojené služby "SQLDB". Zadejte své přihlašovací údaje, aby se datová továrna mohla připojit k vaší databázi. Pokud používáte ověřování SQL, zadejte název serveru, databázi, uživatelské jméno a heslo. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.
Vytvoření propojené služby Azure Synapse Analytics
Stejným postupem přidejte propojenou službu Azure Synapse Analytics. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Synapse Analytics a vyberte pokračovat.
V podokně konfigurace propojené služby zadejte jako název propojené služby "SQLDW". Zadejte své přihlašovací údaje, aby se datová továrna mohla připojit k vaší databázi. Pokud používáte ověřování SQL, zadejte název serveru, databázi, uživatelské jméno a heslo. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.
Vytvoření propojené služby Azure Data Lake Storage Gen2
Poslední propojená služba potřebná pro toto cvičení je Azure Data Lake Storage Gen2. Na kartě Připojení vyberte Nový. Vyberte dlaždici Azure Data Lake Storage Gen2 a vyberte pokračovat.
V podokně konfigurace propojené služby zadejte jako název propojené služby "ADLSGen2". Pokud používáte ověřování pomocí klíče účtu, vyberte účet úložiště ADLS Gen2 z rozevíracího seznamu Název účtu úložiště. Informace o připojení můžete ověřit tak , že vyberete test připojení. Po dokončení vyberte Vytvořit.
Zapnutí režimu ladění toku dat
V části Transformovat data pomocí mapování toku dat vytváříte mapování toků dat. Osvědčeným postupem před sestavením toků dat mapování je zapnout režim ladění, který umožňuje otestovat logiku transformace v sekundách v aktivním clusteru Spark.
Pokud chcete zapnout ladění, vyberte posuvník ladění toku dat v horním panelu plátna toku dat nebo plátna kanálu, pokud máte aktivity toku dat. Po zobrazení potvrzovací dialogového okna vyberte OK . Cluster se spustí přibližně za 5 až 7 minut. Pokračujte v ingestování dat ze služby Azure SQL Database do ADLS Gen2 pomocí aktivity kopírování během inicializace.
Příjem dat pomocí aktivity kopírování
V této části vytvoříte kanál s aktivitou kopírování, která ingestuje jednu tabulku ze služby Azure SQL Database do účtu úložiště ADLS Gen2. Dozvíte se, jak přidat kanál, nakonfigurovat datovou sadu a ladit kanál prostřednictvím uživatelského prostředí ADF. Vzor konfigurace použitý v této části lze použít ke kopírování z relačního úložiště dat do souborového úložiště dat.
Kanál ve službě Azure Data Factory je logické seskupení aktivit, které společně provádějí úlohu. Aktivita definuje operaci, která se má provést s vašimi daty. Datová sada odkazuje na data, která chcete použít v propojené službě.
Vytvoření kanálu s aktivitou kopírování
V podokně prostředky továrny vyberte na ikoně plus a otevřete nabídku nového prostředku. Vyberte Kanál.
Na kartě Obecné na plátně kanálu pojmenujte kanál něco popisného, například IngestAndTransformTaxiData.
V podokně aktivit na plátně kanálu otevřete accordion Přesunout a transformovat a přetáhněte aktivitu kopírování dat na plátno. Zadejte popisný název aktivity kopírování, například IngestIntoADLS.
Konfigurace zdrojové datové sady Azure SQL DB
Vyberte na kartě Zdroj aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nový. Vaším zdrojem bude tabulka
dbo.TripData
umístěná v dříve nakonfigurované propojené službě SQLDB.Vyhledejte Azure SQL Database a vyberte pokračovat.
Zavolejte datovou sadu TripData. Jako propojenou službu vyberte SQLDB. V rozevíracím seznamu název tabulky vyberte název
dbo.TripData
tabulky. Importujte schéma z připojení nebo úložiště. Po dokončení zvolte OK.
Úspěšně jste vytvořili zdrojovou datovou sadu. Ujistěte se, že je ve zdrojovém nastavení vybraná výchozí hodnota Tabulka v poli použít dotaz.
Konfigurace datové sady jímky ADLS Gen2
Vyberte na kartě Jímka aktivity kopírování. Pokud chcete vytvořit novou datovou sadu, vyberte Nový.
Vyhledejte Azure Data Lake Storage Gen2 a vyberte pokračovat.
V podokně pro výběr formátu vyberte při psaní do souboru CSV text s oddělovači . Vyberte pokračovat.
Pojmenujte datovou sadu jímky TripDataCSV. Jako propojenou službu vyberte ADLSGen2. Zadejte, kam chcete napsat soubor CSV. Můžete například zapisovat data do souboru
trip-data.csv
v kontejnerustaging-container
. Nastavte první řádek jako záhlaví na true, protože chcete, aby výstupní data měla záhlaví. Vzhledem k tomu, že v cíli ještě neexistuje žádný soubor, nastavte schéma importu na Hodnotu Žádné. Po dokončení zvolte OK.
Otestování aktivity kopírování spuštěním ladění kanálu
Pokud chcete ověřit, že aktivita kopírování funguje správně, vyberte v horní části plátna kanálu ladění a spusťte spuštění ladění. Spuštění ladění umožňuje otestovat kanál buď na konci, nebo až do zarážky před jeho publikováním do služby datové továrny.
Pokud chcete monitorovat spuštění ladění, přejděte na kartu Výstup na plátně kanálu. Obrazovka monitorování se automaticky spustí každých 20 sekund nebo když ručně vyberete tlačítko aktualizovat. Aktivita kopírování má speciální zobrazení monitorování, ke kterému je možné získat přístup výběrem ikony očních brýlí ve sloupci Akce .
Zobrazení monitorování kopírování poskytuje podrobnosti o spuštění a charakteristiky výkonu aktivity. Můžete zobrazit informace, jako jsou čtení a zápis dat, řádky pro čtení/zápis, čtení a zápis souborů a propustnost. Pokud jste všechno nakonfigurovali správně, měli byste vidět 49 999 řádků zapsaných do jednoho souboru v jímce ADLS.
Než přejdete k další části, doporučujeme publikovat změny ve službě datové továrny výběrem možnosti Publikovat vše na horním panelu továrny. Azure Data Factory sice v tomto cvičení nepodporuje úplnou integraci Gitu. Integrace Gitu umožňuje správu verzí, iterativní ukládání v úložišti a spolupráci na datové továrně. Další informace najdete v tématu Správa zdrojového kódu ve službě Azure Data Factory.
Transformace dat s využitím toků dat mapování
Teď, když jste úspěšně zkopírovali data do Azure Data Lake Storage, je čas tato data spojit a agregovat do datového skladu. Používáme tok dat mapování, vizuálně navrženou transformační službu azure Data Factory. Mapování toků dat umožňuje uživatelům vyvíjet logiku transformace bez kódu a spouštět je v clusterech Spark spravovaných službou ADF.
Tok dat vytvořený v tomto kroku vnitřní spojuje datovou sadu TripDataCSV vytvořenou v předchozí části s tabulkou dbo.TripFares
uloženou v SQLDB na základě čtyř klíčových sloupců. Data se pak agregují na základě sloupce payment_type
, aby vypočítaly průměr určitých polí a zapisovaly se do tabulky Azure Synapse Analytics.
Přidání aktivity toku dat do kanálu
V podokně aktivit plátna kanálu otevřete accordion Move and Transform a přetáhněte aktivitu toku dat na plátno.
V bočním podokně, které se otevře, vyberte Vytvořit nový tok dat a zvolte Mapování toku dat. Vyberte OK.
Budete přesměrováni na plátno toku dat, kde budete vytvářet logiku transformace. Na kartě Obecné pojmenujte tok dat JoinAndAggregateData.
Konfigurace zdroje sdíleného svazku clusteru dat o jízdě
První věc, kterou chcete udělat, je konfigurace dvou zdrojových transformací. První zdroj odkazuje na datovou sadu TripDataCSV s oddělovači. Pokud chcete přidat zdrojovou transformaci, vyberte na plátně pole Přidat zdroj .
Pojmenujte zdroj TripDataCSV a v rozevíracím seznamu zdroje vyberte datovou sadu TripDataCSV. Pokud si pamatujete, nenaimportovali jste schéma při vytváření této datové sady, protože tam nebyla žádná data. Vzhledem k tomu
trip-data.csv
, že teď existuje, přejděte výběrem možnosti Upravit na kartu nastavení datové sady.Přejděte na kartu Schéma a vyberte Importovat schéma. Výběrem možnosti Z připojení nebo úložiště importujte přímo z úložiště souborů. Mělo by se zobrazit 14 sloupců typu řetězec.
Vraťte se k toku dat JoinAndAggregateData. Pokud se váš ladicí cluster spustil (označen zeleným kruhem vedle posuvníku ladění), můžete získat snímek dat na kartě Náhled dat. Pokud chcete načíst náhled dat, vyberte Aktualizovat .
Poznámka:
Náhled dat nezapisuje data.
Konfigurace jízdného za jízdu ve zdroji služby SQL Database
Druhý zdroj, který přidáváte body do tabulky
dbo.TripFares
služby SQL Database. Pod zdrojem TripDataCSV je další pole Přidat zdroj . Výběrem této transformace přidáte novou zdrojovou transformaci.Pojmenujte tento zdroj TripFaresSQL. Výběrem možnosti Nový vedle pole zdrojové datové sady vytvořte novou datovou sadu SQL Database.
Vyberte dlaždici Azure SQL Database a vyberte pokračovat. V mapování toku dat můžete zaznamenat, že mnoho konektorů v datové toku se nepodporuje. Pokud chcete transformovat data z jednoho z těchto zdrojů, ingestujte je do podporovaného zdroje pomocí aktivity kopírování.
Volejte datovou sadu TripFares. Jako propojenou službu vyberte SQLDB. V rozevíracím seznamu název tabulky vyberte název
dbo.TripFares
tabulky. Importujte schéma z připojení nebo úložiště. Po dokončení zvolte OK.Pokud chcete ověřit svá data, načtěte náhled dat na kartě Náhled dat.
Vnitřní připojení k TripDataCSV a TripFaresSQL
Pokud chcete přidat novou transformaci, vyberte ikonu plus v pravém dolním rohu tripdataCSV. V části Více vstupů a výstupů vyberte Připojit.
Pojmenujte transformaci spojení InnerJoinWithTripFares. V rozevíracím seznamu správných datových proudů vyberte TripFaresSQL. Jako typ spojení vyberte Vnitřní . Další informace o různých typech spojení v mapování toku dat najdete v tématu Typy spojení.
V rozevíracím seznamu Podmínky spojení vyberte sloupce, u kterých chcete shodovat jednotlivé datové proudy. Pokud chcete přidat další podmínku spojení, vyberte vedle existující podmínky ikonu plus. Ve výchozím nastavení jsou všechny podmínky spojení kombinovány s operátorem AND, což znamená, že všechny podmínky musí být splněny pro shodu. V tomto cvičení chceme shodovat se sloupci
medallion
,hack_license
,vendor_id
a , apickup_datetime
Ověřte, že jste úspěšně připojili 25 sloupců společně s náhledem dat.
Agregovat podle payment_type
Po dokončení transformace spojení přidejte agregovanou transformaci výběrem ikony plus vedle InnerJoinWithTripFares. V části Modifikátor schématu zvolte Agregovat.
Pojmenujte agregační transformaci AggregateByPaymentType. Vyberte
payment_type
jako skupinu podle sloupce.Přejděte na kartu Agregace . Zadejte dvě agregace:
- Průměrný tarif seskupený podle typu platby
- Celková vzdálenost jízdy seskupené podle typu platby
Nejprve vytvoříte průměrný výraz jízdného. Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte "average_fare".
Pokud chcete zadat agregační výraz, vyberte modrý rámeček označený jako Výraz Enter, který otevře tvůrce výrazů toku dat, nástroj sloužící k vizuálnímu vytváření výrazů toku dat pomocí vstupního schématu, integrovaných funkcí a operací a uživatelsky definovaných parametrů. Další informace o možnostech tvůrce výrazů najdete v dokumentaci tvůrce výrazů.
Chcete-li získat průměrnou jízdu, použijte
avg()
agregační funkci k agregacitotal_amount
sloupce přetypování na celé číslo stoInteger()
. V jazyce výrazů toku dat je definován jakoavg(toInteger(total_amount))
. Až budete hotovi, vyberte Uložit a dokončit .Pokud chcete přidat další agregační výraz, vyberte vedle ikony plus .
average_fare
Vyberte Přidat sloupec.Do textového pole s popiskem Přidat nebo vybrat sloupec zadejte total_trip_distance. Stejně jako v posledním kroku otevřete tvůrce výrazů a zadejte ho do výrazu.
Pokud chcete získat celkovou vzdálenost jízdy, použijte
sum()
agregační funkci k agregacitrip_distance
sloupce přetypování na celé číslo stoInteger()
. V jazyce výrazů toku dat je definován jakosum(toInteger(trip_distance))
. Až budete hotovi, vyberte Uložit a dokončit .Otestujte logiku transformace na kartě Náhled dat. Jak vidíte, existuje výrazně méně řádků a sloupců než dříve. Pouze tři skupiny podle sloupců agregace definované v této transformaci budou pokračovat v podřízené oblasti. Vzhledem k tomu, že v ukázce je pouze pět skupin platebních typů, vypíše se pouze pět řádků.
Konfigurace jímky Azure Synapse Analytics
Teď, když jsme dokončili logiku transformace, jsme připravení potopit data v tabulce Azure Synapse Analytics. Přidejte transformaci jímky do oddílu Cíl .
Pojmenujte jímku SQLDWSink. Výběrem možnosti Nový vedle pole datové sady jímky vytvořte novou datovou sadu Azure Synapse Analytics.
Vyberte dlaždici Azure Synapse Analytics a vyberte pokračovat.
Volejte datovou sadu AggregatedTaxiData. Jako propojenou službu vyberte SQLDW. Vyberte Vytvořit novou tabulku a pojmenujte novou tabulku
dbo.AggregateTaxiData
. Po dokončení zvolte OK.Přejděte na kartu Nastavení jímky. Vzhledem k tomu, že vytváříme novou tabulku, musíme v akci tabulky vybrat Znovu vytvořit tabulku . Zrušte výběr možnosti Povolit přípravu, která přepíná, jestli vkládáme řádky po řádcích nebo v dávce.
Úspěšně jste vytvořili tok dat. Teď je čas ho spustit v aktivitě kanálu.
Ladění kompletního kanálu
Vraťte se na kartu kanálu IngestAndTransformData . Všimněte si zeleného rámečku aktivity kopírování IngestIntoADLS. Přetáhněte ho na aktivitu toku dat JoinAndAggregateData. Tím se vytvoří aktivita toku dat při úspěchu, která způsobí, že se aktivita toku dat spustí jenom v případě, že je kopírování úspěšné.
Stejně jako u aktivity kopírování vyberte Ladit a spusťte spuštění ladění. U spuštění ladění aktivita toku dat používá aktivní ladicí cluster místo otáčení nového clusteru. Spuštění tohoto kanálu trvá trochu přes minutu.
Podobně jako u aktivity kopírování má tok dat při dokončení aktivity speciální zobrazení monitorování, ke které přistupuje ikona brýle.
V zobrazení monitorování můžete vidět zjednodušený graf toku dat spolu s časy provádění a řádky v každé fázi provádění. Pokud jste to udělali správně, měli byste v této aktivitě agregovat 49 999 řádků do pěti řádků.
Můžete vybrat transformaci, abyste získali další podrobnosti o jejím spuštění, jako jsou informace o dělení a nové/ aktualizované nebo vyřazené sloupce.
Dokončili jste část tohoto testovacího prostředí datové továrny. Pokud chcete prostředky zprovoznit pomocí triggerů, publikujte je. Úspěšně jste spustili kanál, který ingestoval data z Azure SQL Database do Azure Data Lake Storage pomocí aktivity kopírování a pak tato data agregovala do Azure Synapse Analytics. Data úspěšně napsaná můžete ověřit tak, že se podíváte na samotný SQL Server.
Sdílení dat s využitím Azure Data Share
V této části se dozvíte, jak nastavit novou sdílenou složku dat pomocí webu Azure Portal. To zahrnuje vytvoření nové sdílené složky dat, která obsahuje datové sady z Azure Data Lake Storage Gen2 a Azure Synapse Analytics. Pak nakonfigurujete plán snímků, který uživatelům dat poskytne možnost automaticky aktualizovat sdílená data. Pak pozvete příjemce do sdílené datové složky.
Jakmile vytvoříte sdílenou složku dat, přepnete klobouky a stanete se příjemcem dat. Jako příjemce dat si projdete tok přijetí pozvánky ke sdílené složce dat a nakonfigurujete, kam chcete data přijímat a mapovat datové sady na různá umístění úložiště. Pak aktivujete snímek, který zkopíruje data sdílená s vámi do zadaného cíle.
Sdílení dat (tok Zprostředkovatel dat)
Otevřete Azure Portal v Microsoft Edgi nebo Google Chrome.
Pomocí panelu hledání v horní části stránky vyhledejte datové sdílené složky.
V názvu vyberte účet sdílené datové složky se zprostředkovatelem. Například DataProvider0102.
Vyberte Zahájit sdílení dat.
Vyberte +Vytvořit a začněte konfigurovat novou sdílenou složku dat.
V části Název sdílené složky zadejte název podle svého výběru. Jedná se o název sdílené složky, který uvidí váš příjemce dat, proto mu dejte popisný název, například TaxiData.
V části Popis vložte větu, která popisuje obsah sdílené datové složky. Sdílená složka dat obsahuje globální data o jízdě taxíkem, která jsou uložená v různých úložištích, včetně Azure Synapse Analytics a Azure Data Lake Storage.
V části Podmínky použití zadejte sadu podmínek, které chcete, aby spotřebitel dat dodržoval podmínky. Mezi příklady patří "Nedistribuovat tato data mimo vaši organizaci" nebo "Odkazovat na právní smlouvu".
Zvolte Pokračovat.
Výběr možnosti Přidat datové sady
Vyberte Azure Synapse Analytics a vyberte tabulku ze služby Azure Synapse Analytics, ve které vaše transformace ADF přistály.
Než budete moct pokračovat, dostanete skript ke spuštění. Zadaný skript vytvoří uživatele v databázi SQL, aby se MSI služby Azure Data Share mohla ověřit jejím jménem.
Důležité
Před spuštěním skriptu musíte nastavit jako službu Active Directory Správa pro logický SQL server služby Azure SQL Database.
Otevřete novou kartu a přejděte na web Azure Portal. Zkopírujte zadaný skript pro vytvoření uživatele v databázi, ze které chcete sdílet data. Uděláte to tak, že se přihlásíte k databázi EDW pomocí editoru dotazů na webu Azure Portal pomocí ověřování Microsoft Entra. Musíte upravit uživatele v následujícím ukázkovém skriptu:
CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
Přepněte zpět do služby Azure Data Share, do které jste do sdílené datové složky přidávali datové sady.
Vyberte EDW a pak pro tabulku vyberte AggregatedTaxiData .
Výběr možnosti Přidat datovou sadu
Teď máme tabulku SQL, která je součástí naší datové sady. V dalším kroku přidáme další datové sady z Azure Data Lake Storage.
Vyberte Přidat datovou sadu a vyberte Azure Data Lake Storage Gen2.
Vyberte Další.
Rozbalte wwtaxidata. Rozbalte data bostonského taxislužby. Sdílení můžete snížit na úroveň souboru.
Vyberte složku Boston Taxi Data a přidejte celou složku do sdílené složky dat.
Výběr možnosti Přidat datové sady
Zkontrolujte přidané datové sady. Měli byste mít tabulku SQL a složku ADLS Gen2 přidanou do sdílené složky dat.
Vyberte Pokračovat.
Na této obrazovce můžete do sdílené složky dat přidat příjemce. Příjemci, které přidáte, dostanou pozvánky ke sdílené složce dat. Pro účely tohoto cvičení musíte přidat dvě e-mailové adresy:
Na této obrazovce můžete nakonfigurovat nastavení snímku pro příjemce dat. Díky tomu získáte pravidelné aktualizace dat v intervalu definovaném vámi.
Pomocí rozevíracího seznamu Opakování zkontrolujte plán snímků a nakonfigurujte hodinovou aktualizaci dat.
Vyberte Vytvořit.
Teď máte aktivní sdílenou složku dat. Umožňuje zkontrolovat, co můžete při vytváření sdílené složky dat vidět jako zprostředkovatele dat.
Vyberte sdílenou složku dat, kterou jste vytvořili s názvem DataProvider. Na ni můžete přejít tak, že vyberete Odeslaná sdílená složka ve sdílené složce dat.
Vyberte plán snímků. Pokud zvolíte, můžete plán snímků zakázat.
Pak vyberte kartu Datové sady . Po vytvoření můžete do této sdílené složky dat přidat další datové sady.
Vyberte kartu Sdílet předplatná. Zatím neexistují žádná předplatná sdílení, protože příjemce dat ještě pozvánku nepřijal.
Přejděte na kartu Pozvánky . Tady uvidíte seznam nevyřízených pozvánek.
Vyberte pozvánku na janedoe@fabrikam.com. Vyberte Odstranit. Pokud příjemce pozvánku ještě nepřijal, už to nebude moct udělat.
Vyberte kartu Historie. Nic se zatím nezobrazuje, protože váš příjemce dat ještě pozvánku nepřijal a aktivoval snímek.
Příjem dat (tok příjemce dat)
Teď, když jsme si prošli naši sdílenou složku dat, jsme připraveni přepnout kontext a nosit klobouk pro spotřebitele dat.
Teď byste měli mít pozvánku ke službě Azure Data Share ve složce Doručená pošta z Microsoft Azure. Spusťte Outlook Web Access (outlook.com) a přihlaste se pomocí přihlašovacích údajů zadaných pro vaše předplatné Azure.
V e-mailu, který byste měli obdržet, vyberte možnost Zobrazit pozvánku >. V tuto chvíli budete simulovat prostředí pro spotřebitele dat při přijetí pozvánky zprostředkovatele dat do jejich sdílené datové složky.
Může se zobrazit výzva k výběru předplatného. Ujistěte se, že jste pro toto cvičení vybrali předplatné, ve které jste pracovali.
Vyberte pozvánku s názvem DataProvider.
Na této obrazovce pozvánky si všimněte různých podrobností o sdílené složce dat, kterou jste nakonfigurovali dříve jako poskytovatele dat. Zkontrolujte podrobnosti a přijměte podmínky použití, pokud jsou k dispozici.
Vyberte předplatné a skupinu prostředků, které už pro vaše testovací prostředí existují.
V případě účtu sdílené datové složky vyberte DataConsumer. Můžete také vytvořit nový účet sdílené datové složky.
Vedle názvu přijaté sdílené složky si všimněte, že výchozí název sdílené složky je název, který určil poskytovatel dat. Dejte sdílené složce popisný název, který popisuje data, která se chystáte přijmout, například TaxiDataShare.
Můžete zvolit možnost Přijmout a nakonfigurovat nyní nebo Přijmout a nakonfigurovat později. Pokud se rozhodnete přijmout a nakonfigurovat teď, zadejte účet úložiště, do kterého se mají kopírovat všechna data. Pokud se rozhodnete přijmout a nakonfigurovat později, datové sady ve sdílené složce se nenamapují a budete je muset namapovat ručně. Rozhodneme se pro to později.
Vyberte Přijmout a nakonfigurujte později.
Při konfiguraci této možnosti se vytvoří předplatné sdílené složky, ale neexistuje nikde, kde by se data dostala, protože nebyla namapována žádná cílová místa.
Dále nakonfigurujte mapování datových sad pro sdílenou datovou složku.
Vyberte přijatou sdílenou složku (název, který jste zadali v kroku 5).
Snímek triggeru je neaktivní, ale sdílená složka je aktivní.
Vyberte kartu Datové sady. Každá datová sada je nemapovaná, což znamená, že nemá žádný cíl ke kopírování dat.
Vyberte tabulku Azure Synapse Analytics a pak vyberte + Mapovat na cíl.
Na pravé straně obrazovky vyberte rozevírací seznam Cílový datový typ .
Data SQL můžete mapovat na širokou škálu úložišť dat. V tomto případě budeme mapovat na Azure SQL Database.
(Volitelné) Jako cílový datový typ vyberte Azure Data Lake Storage Gen2 .
(Volitelné) Vyberte předplatné, skupinu prostředků a účet úložiště, ve kterých jste pracovali.
(Volitelné) Data můžete přijímat do datového jezera ve formátu CSV nebo parquet.
Vedle datového typu Target vyberte Azure SQL Database.
Vyberte předplatné, skupinu prostředků a účet úložiště, ve kterých jste pracovali.
Než budete moct pokračovat, budete muset na SQL Serveru vytvořit nového uživatele spuštěním poskytnutého skriptu. Nejprve zkopírujte skript zadaný do schránky.
Otevřete novou kartu webu Azure Portal. Nezavírejte stávající kartu, protože se k ní budete muset vrátit za chvíli.
Na nové kartě, kterou jste otevřeli, přejděte do databází SQL.
Vyberte databázi SQL (ve vašem předplatném by měla být jenom jedna). Dávejte pozor, abyste nevybírejte datový sklad.
Výběr editoru dotazů (Preview)
K přihlášení k editoru dotazů použijte ověřování Microsoft Entra.
Spusťte dotaz zadaný ve sdílené složce dat (zkopírovaný do schránky v kroku 14).
Tento příkaz umožňuje službě Azure Data Share používat spravované identity pro služby Azure k ověření na SQL Serveru, aby do ní mohla kopírovat data.
Vraťte se na původní kartu a vyberte Mapovat k cíli.
Dále vyberte složku Azure Data Lake Storage Gen2, která je součástí datové sady, a namapujte ji na účet Azure Blob Storage.
Se všemi namapovanými datovými sadami teď můžete začít přijímat data od zprostředkovatele dat.
Vyberte Podrobností.
Snímek triggeru už není šedý, protože sdílená složka dat teď má cíle, do které se mají kopírovat.
Vyberte snímek aktivační události –> úplná kopie.
Tím se začnou kopírovat data do nového účtu sdílené datové složky. V reálném scénáři by tato data pocházejí od třetí strany.
Než se data dostanou, trvá přibližně 3 až 5 minut. Průběh můžete sledovat výběrem na kartě Historie .
Během čekání přejděte na původní sdílenou složku dat (DataProvider) a zobrazte stav karty Sdílet předplatná a historie . Teď je aktivní předplatné a jako poskytovatel dat můžete také monitorovat, kdy spotřebitel dat začal přijímat data sdílená s nimi.
Vraťte se ke sdílené složce dat příjemce dat. Jakmile je stav triggeru úspěšný, přejděte do cílové databáze SQL a datového jezera, abyste zjistili, že data přistála v příslušných úložištích.
Blahopřejeme, dokončili jste cvičení!