Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO: Azure Data Factory
Azure Synapse Analytics
Návod
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přenosu dat až po datové vědy, analýzy v reálném čase, business intelligence a reportování. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento kurz ukazuje kopírování několika tabulek z Azure SQL Database do Azure Synapse Analytics. Stejný vzor můžete využít i u dalších scénářů kopírování. Například kopírování tabulek z SQL Serveru a Oracle do Azure SQL Database, Azure Synapse Analytics nebo Azure Blob a kopírování různých cest z objektů blob do tabulek Azure SQL Database.
Poznámka:
Pokud se službou Azure Data Factory začínáte, přečtěte si téma Seznámení se službou Azure Data Factory.
Tento kurz zahrnuje následující základní kroky:
- Vytvoření datové továrny
- Vytvořte propojené služby Azure SQL Database, Azure Synapse Analytics a Azure Storage.
- Vytvoření datových sad Azure SQL Database a Azure Synapse Analytics
- Vytvoření kanálu pro vyhledání tabulek ke zkopírování a dalšího kanálu pro provedení vlastní operace kopírování
- Zahajte běh pipeliny.
- Sledujte potrubí a běhy aktivit.
Tento kurz používá Azure Portal. Chcete-li se dozvědět více o vytvoření datové továrny s použitím jiných nástrojů nebo SDK, podívejte se na Rychlé začátky.
Ucelený pracovní postup
V tomto scénáři máte v Azure SQL Database řadu tabulek, které chcete zkopírovat do Azure Synapse Analytics. Tady je logická posloupnost kroků tohoto procesu, které se provádějí v potrubí:
- První datový tok vyhledá seznam tabulek, které je potřeba zkopírovat do cílových úložišť dat. Další možností je udržovat tabulku metadat se seznamem všech tabulek, které je potřeba zkopírovat do úložišť dat jímky. Kanál potom aktivuje jiný kanál, který postupně prochází všechny tabulky v databázi a provádí operaci kopírování dat.
- Tento druhý potrubí provádí skutečné kopírování. Jako parametr používá seznam tabulek. Pro každou tabulku v seznamu zkopírujte konkrétní tabulku ve službě Azure SQL Database do odpovídající tabulky ve službě Azure Synapse Analytics s použitím fázované kopie prostřednictvím úložiště objektů blob a PolyBase pro zajištění nejlepšího výkonu. V tomto příkladu první kanál předá seznam tabulek jako hodnotu parametru.
Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.
Požadavky
- Účet služby Azure Storage. Účet Azure Storage se v operaci hromadného kopírování používá jako dočasné úložiště objektů blob.
- Azure SQL Database Tato databáze obsahuje zdrojová data. Vytvořte databázi ve službě SQL Database s ukázkovými daty Adventure Works LT podle článku Vytvoření databáze v Azure SQL Database . Tento kurz zkopíruje všechny tabulky z této ukázkové databáze do služby Azure Synapse Analytics.
- Azure Synapse Analytics. Tento datový sklad obsahuje data zkopírovaná z SQL Database. Pokud nemáte pracovní prostor Azure Synapse Analytics, přečtěte si článek Začínáme se službou Azure Synapse Analytics , kde najdete postup jeho vytvoření.
Služby Azure pro přístup k SQL serveru
Pro SQL Database i Azure Synapse Analytics povolte službám Azure přístup k SQL Serveru. Ujistěte se, že je pro váš server zapnutá možnost Povolit službám a prostředkům Azure přístup k tomuto nastavení serveru. Toto nastavení umožňuje službě Data Factory číst data z azure SQL Database a zapisovat data do služby Azure Synapse Analytics.
Pokud chcete toto nastavení ověřit a zapnout, přejděte na server > zabezpečení, > brány firewall a virtuální sítě, > a nastavte možnost Povolit službám a prostředkům Azure přístup k tomuto serveru na zapnuto.
Vytvoření datové továrny
Spusťte webový prohlížeč Microsoft Edge nebo Google Chrome. Uživatelské rozhraní služby Data Factory podporují v současnosti jenom webové prohlížeče Microsoft Edge a Google Chrome.
Přejděte na Azure Portal.
V horní nabídce vyberte Vytvořit prostředek>Analýzy>Datová továrna:
Na stránce Nová datová továrna zadejte ADFTutorialBulkCopyDF pro název.
Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí následující chyba pole pro název, změňte název datové továrny (například vaše_jméno_ADFTutorialBulkCopyDF). Pravidla pojmenování artefaktů služby Data Factory najdete v článku Data Factory – pravidla pojmenování.
Data factory name "ADFTutorialBulkCopyDF" is not available
Vyberte své předplatné Azure, ve kterém chcete vytvořit datovou továrnu.
Pro Skupinu prostředků proveďte jeden z následujících kroků:
Vyberte Použít existující a z rozevíracího seznamu vyberte existující skupinu prostředků.
Vyberte Vytvořit novou a zadejte název skupiny prostředků.
Informace o skupinách prostředků najdete v článku Použití skupin prostředků ke správě prostředků Azure.
Jako verzi vyberte V2.
Vyberte umístění pro datovou továrnu. Pokud chcete zobrazit seznam oblastí Azure, ve kterých je služba Data Factory aktuálně dostupná, na následující stránce vyberte oblasti, které vás zajímají, pak rozbalte Analýza a vyhledejte Data Factory:Dostupné produkty v jednotlivých oblastech. Úložiště dat (Azure Storage, Azure SQL Database atd.) a výpočetní prostředí (HDInsight atd.) používané datovou továrnou mohou být v jiných oblastech.
Klikněte na Vytvořit.
Po vytvoření klikněte na Přejít k prostředku a přejděte na stránku Data Factory.
Spusťte uživatelské rozhraní aplikace Data Factory výběrem Otevřít na dlaždici Otevřít Azure Data Factory Studio v samostatné kartě.
Vytvoření propojených služeb
Vytvoříte propojené služby, které propojí vaše úložiště dat a výpočetní prostředí s datovou továrnou. Propojená služba obsahuje informace o připojení, které služba Data Factory používá pro připojení k úložišti dat za běhu.
V tomto kurzu propojíte datová úložiště Azure SQL Database, Azure Synapse Analytics a Azure Blob Storage s vaší datovou továrnou. Azure SQL Database je zdrojové úložiště dat. Azure Synapse Analytics je cílové úložiště dat. Azure Blob Storage připraví data před načtením dat do Azure Synapse Analytics pomocí PolyBase.
Vytvořte propojenou službu Azure SQL Database pro propojení se zdrojem
V tomto kroku vytvoříte propojenou službu pro propojení databáze ve službě Azure SQL Database s datovou továrnou.
Otevřete kartě Spravovat z levého podokna.
Na stránce Propojené služby vyberte +Nový a vytvořte novou propojenou službu.
V okně Nová propojená služba vyberte Azure SQL Database a klikněte na Pokračovat.
V okně Nová propojená služba (Azure SQL Database) proveďte následující kroky:
a. Jako Název zadejte AzureSqlDatabaseLinkedService.
b) Vyberte server pro Server name
c) Vyberte databázi pro název databáze.
d. Zadejte jméno uživatele pro připojení k databázi.
e. Zadejte heslo pro tohoto uživatele.
f. Chcete-li otestovat připojení k databázi pomocí zadaných informací, klepněte na tlačítko Test připojení.
gram Kliknutím na Vytvořit uložíte propojenou službu.
Vytvořte propojenou službu Azure Synapse Analytics úložiště
Na kartě Připojení znovu klikněte na + Nové na panelu nástrojů.
V okně Nová propojená služba vyberte Azure Synapse Analytics a klikněte na Pokračovat.
V okně Nová propojená služba (Azure Synapse Analytics) proveďte následující kroky:
a. Jako Název zadejte AzureSqlDWLinkedService.
b) Vyberte server pro Server name
c) Vyberte databázi pro název databáze.
d. Zadejte uživatelské jméno pro připojení k databázi.
e. Zadejte heslo pro uživatele.
f. Chcete-li otestovat připojení k databázi pomocí zadaných informací, klepněte na tlačítko Test připojení.
gram Klikněte na Vytvořit.
Vytvoření přípravné propojené služby Azure Storage
V tomto kurzu použijete Azure Blob Storage jako dočasné pracovní oblast, abyste zajistili lepší výkon kopírování pro funkci PolyBase.
Na kartě Připojení znovu klikněte na + Nové na panelu nástrojů.
V okně Nová propojená služba vyberte Azure Blob Storage a klikněte na Pokračovat.
V okně Nová propojená služba (Azure Blob Storage) proveďte následující kroky:
a. Jako Název zadejte AzureStorageLinkedService.
b) Jako Název účtu úložiště vyberte svůj účet služby Azure Storage.c) Klikněte na Vytvořit.
Vytvoření datových sad
V tomto kurzu vytvoříte zdrojovou datovou sadu a datovou sadu jímky, které určují umístění pro uložení dat.
Vstupní datová sada AzureSqlDatabaseDataset odkazuje na službu AzureSqlDatabaseLinkedService. Propojená služba určuje připojovací řetězec pro připojení k databázi. Datová sada určuje název databáze a tabulky obsahující zdrojová data.
Výstupní datová sada AzureSqlDWDataset odkazuje na službu AzureSqlDWLinkedService. Propojená služba určuje připojovací řetězec pro připojení k Azure Synapse Analytics. Datová sada určuje databázi a tabulku, do kterých se data zkopírují.
V tomto kurzu nejsou zdrojová a cílová tabulka SQL pevně zakódované v definicích datových sad. Místo toho aktivita ForEach za běhu předává název tabulky do aktivity Copy.
Vytvoření datové sady pro zdrojovou databázi SQL Database
V levém podokně vyberte kartu Autor .
+ V levém podokně vyberte (plus) a pak vyberte Datová sada.
V okně Nová datová sada vyberte Azure SQL Database a potom klikněte na Pokračovat.
V okně Nastavit vlastnosti v části Název zadejte AzureSqlDatabaseDataset. V části Propojená služba vyberte AzureSqlDatabaseLinkedService. Pak klikněte na OK.
Přepněte na kartu Připojení a vyberte kteroukoliv tabulku do pole Tabulka. Tato tabulka je zkušební. Při vytváření kanálu zadáte dotaz na zdrojovou datovou sadu. Dotaz slouží k extrakci dat z databáze. Můžete také kliknout na zaškrtávací políčko Edit a jako název tabulky zadat dbo.dummyName.
Vytvořte datovou sadu pro datové úložiště Azure Synapse Analytics
Klikněte na symbol + (plus) v levém podokně a pak klikněte na Datová sada.
V okně Nová datová sada vyberte Azure Synapse Analytics a potom klikněte na Pokračovat.
V okně Nastavit vlastnosti v části Název zadejte AzureSqlDWDataset. V části Propojená služba vyberte AzureSqlDWLinkedService. Pak klikněte na OK.
Přepněte na kartu Parametry, klikněte na +Nové a jako název parametru zadejte DWTableName. Znovu klikněte na + Nový a jako název parametru zadejte DWSchema . Pokud tento název zkopírujete nebo vložíte ze stránky, ujistěte se, že na konci DWTableName a DWSchema není žádný znak mezery.
Přepněte na kartu Připojení.
U tabulky zaškrtněte možnost Upravit . Vyberte do prvního vstupního pole a klikněte na odkaz Přidat dynamický obsah níže. Na stránce Přidat dynamický obsah klikněte na DWSchema pod Parametry, což automaticky naplní horní textové pole výrazu
@dataset().DWSchema
, a potom klikněte na Dokončit.Vyberte do druhého vstupního pole a klikněte níže na odkaz Přidat dynamický obsah . Na stránce Přidat dynamický obsah klikněte na DWTAbleName v části Parametry, což automaticky naplní textové pole výrazu nahoře
@dataset().DWTableName
, a potom klikněte na Dokončit.Vlastnost tableName datové sady je nastavena na hodnoty, které jsou předány jako argumenty pro parametry DWSchema a DWTableName . Aktivita ForEach prochází seznam tabulek a jednu po druhé je předává aktivitě Kopírování.
Vytvoření přenosových kanálů
V tomto tutoriálu vytvoříte dva kanály: IterateAndCopySQLTables a GetTableListAndTriggerCopyData.
Kanál GetTableListAndTriggerCopyData provádí dvě akce:
- Vyhledá systémové tabulky Azure SQL Database a získá seznam tabulek, které se mají zkopírovat.
- Aktivuje kanál IterateAndCopySQLTables, který provede vlastní kopírování dat.
Kanál IterateAndCopySQLTables přebírá jako parametr seznam tabulek. Pro každou tabulku v seznamu kopíruje data z tabulky ve službě Azure SQL Database do Azure Synapse Analytics pomocí fázované kopie a PolyBase.
Vytvoření kanálu IterateAndCopySQLTables
V levém podokně klikněte na symbol + (plus) a pak klikněte na Kanál.
Na panelu Obecné v části Vlastnosti zadejte IterateAndCopySQLTables pro Název. Potom panel sbalte kliknutím na ikonu Vlastnosti v pravém horním rohu.
Přepněte na kartu Parametry a proveďte následující akce:
a. Klikněte na + Nový.
b) Zadejte tableList pro parametr Název.
c) Vyberte Pole pro Typ.
Na panelu nástrojů Aktivity rozbalte Iterace a podmínky a přetáhněte aktivitu ForEach na plochu návrhu kanálu. Na panelu nástrojů Aktivity můžete aktivity také vyhledávat.
a. Na kartě Obecné dole zadejte IterateSQLTables jako Název.
b) Přepněte na kartu Nastavení, klikněte na vstupní pole položky a potom klikněte na odkaz Přidat dynamický obsah níže.
c) Na stránce Přidat dynamický obsah sbalte části Systémové proměnné a Funkce, klikněte na seznam tabulek v části Parametry, čímž se automaticky naplní textové pole horního výrazu jako
@pipeline().parameter.tableList
. Klikněte na Dokončit.d. Přepněte na kartu Aktivity, klikněte na ikonu tužky a přidejte podřízenou aktivitu do aktivity ForEach.
V sadě nástrojů Aktivity rozbalte položku Přesunout a přenášet a přetáhněte aktivitu kopírování dat do plochy návrháře potrubí. Všimněte si navigační nabídky v horní části. IterateAndCopySQLTable je název kanálu a IterateSQLTables je název aktivity ForEach. Návrhář je v oboru aktivity. Pokud chcete přepnout z editoru ForEach zpět do editoru kanálů, můžete kliknout na odkaz v navigační nabídce.
Přepněte na kartu Zdroj a proveďte následující kroky:
Jako Zdrojová datová sada vyberte AzureSqlDatabaseDataset.
Vyberte možnost Dotaz pro použití dotazu.
Klikněte na vstupní pole dotazu –> vyberte níže uvedený dynamický obsah –> zadejte následující výraz dotazu –> vyberte Dokončit.
SELECT * FROM [@{item().TABLE_SCHEMA}].[@{item().TABLE_NAME}]
Přepněte na kartu Jímka a proveďte následující kroky:
Jako Datová sada jímky vyberte AzureSqlDWDataset.
Klikněte na vstupní pole pro hodnotu parametru DWTableName –> vyberte níže uvedený příkaz Přidat dynamický obsah , zadejte
@item().TABLE_NAME
výraz jako skript –> vyberte Dokončit.Klikněte na vstupní pole pro hodnotu parametru DWSchema –> vyberte níže uvedený příkaz Přidat dynamický obsah , zadejte
@item().TABLE_SCHEMA
výraz jako skript –> vyberte Dokončit.Pro metodu Copy vyberte PolyBase.
Zrušte zaškrtnutí možnosti Použít výchozí typ.
U možnosti Tabulka je výchozí nastavení None (Žádný). Pokud ve službě Azure Synapse Analytics nemáte předem vytvořené tabulky, povolte možnost automatického vytvoření tabulky , aktivita kopírování pak automaticky vytvoří tabulky podle zdrojových dat. Podrobnosti najdete v tématu Automatické vytváření tabulek jímky.
Klikněte na vstupní pole Skript před kopírováním –> vyberte Přidat dynamický obsah níže –> zadejte následující výraz jako skript –> vyberte Dokončit.
IF EXISTS (SELECT * FROM [@{item().TABLE_SCHEMA}].[@{item().TABLE_NAME}]) TRUNCATE TABLE [@{item().TABLE_SCHEMA}].[@{item().TABLE_NAME}]
Přepněte na kartu Nastavení a proveďte následující kroky:
- Zaškrtněte políčko pro povolení stagingu.
- Vyberte AzureStorageLinkedService pro Propojená služba účtu úložiště.
Pokud chcete ověřit nastavení kanálu, klikněte na Ověřit na horním panelu nástrojů kanálu. Ujistěte se, že nedošlo k žádné chybě ověření. Chcete-li zavřít sestavu ověření kanálu, klepněte na dvojité úhlové závorky >>.
Vytvoření kanálu GetTableListAndTriggerCopyData
Toto potrubí provádí dvě akce:
- Vyhledá systémové tabulky Azure SQL Database a získá seznam tabulek, které se mají zkopírovat.
- Aktivuje kanál IterateAndCopySQLTables, který provede vlastní kopírování dat.
Zde jsou kroky k vytvoření datového toku:
V levém podokně klikněte na symbol + (plus) a pak klikněte na Kanál.
Na panelu Obecné v části Vlastnosti změňte název kanálu na GetTableListAndTriggerCopyData.
Na panelu nástrojů Aktivity rozbalte Obecné a přetáhněte aktivitu Vyhledat na plochu návrháře kanálů a proveďte následující kroky:
- Jako Název zadejte LookupTableList.
- Zadejte Načíst seznam tabulek z databáze pro popis.
Přepněte na kartu Nastavení a proveďte následující kroky:
Jako Zdrojová datová sada vyberte AzureSqlDatabaseDataset.
Vyberte Dotaz pro použití dotazu.
Jako Dotaz zadejte následující příkaz jazyka SQL.
SELECT TABLE_SCHEMA, TABLE_NAME FROM information_schema.TABLES WHERE TABLE_TYPE = 'BASE TABLE' and TABLE_SCHEMA = 'SalesLT' and TABLE_NAME <> 'ProductModel'
Zrušte zaškrtnutí pole Pouze první řádek.
Přetáhněte aktivitu Spustit kanál z panelu nástrojů Aktivity na plochu návrháře kanálu a nastavte název na TriggerCopy.
Pokud chcete připojit aktivitu vyhledávání k aktivitě Spustit kanál, přetáhněte zelené pole připojené k aktivitě Vyhledávání doleva od aktivity Spustit kanál.
Přepněte na kartu Nastavení aktivity Spustit procesní řetězec a proveďte následující kroky:
Jako Vyvolaný kanál vyberte IterateAndCopySQLTables.
Zrušte zaškrtnutí políčka Čekání na dokončení.
V části Parametry klikněte na vstupní pole v části HODNOTA –> vyberte níže uvedený dynamický obsah –> zadejte
@activity('LookupTableList').output.value
jako hodnotu názvu tabulky –> vyberte Dokončit. Seznam výsledků z aktivity Vyhledávání nastavujete jako vstup do druhého kanálu. Seznam výsledků obsahuje seznam tabulek, jejichž data se musí zkopírovat do cíle.
Pokud chcete kanál ověřit, klikněte na Ověřit na panelu nástrojů. Ověřte, že nejsou žádné chyby při validaci. Pokud chcete Sestavu ověření kanálu zavřít, klikněte na >>.
Pokud chcete publikovat entity (datové sady, kanály atd.) do služby Data Factory, klikněte v horní části okna na Publikovat všechny . Počkejte na úspěšné dokončení publikování.
Aktivace spuštění kanálu
Přejděte do kanálu GetTableListAndTriggerCopyData, klepněte na tlačítko Přidat aktivační událost na horním panelu nástrojů kanálu a potom klepněte na tlačítko Aktivovat nyní.
Potvrďte spuštění na stránce běhu kanálu a pak vyberte Dokončit.
Monitorování spuštění kanálu
Přepněte na kartu Monitor. Klikněte na Aktualizovat, dokud se nezobrazí běhy pro obě pipeliny ve vašem řešení. Pokračujte v aktualizacích seznamu, dokud se nezobrazí stav Úspěch.
Chcete-li zobrazit spuštění aktivit související s kanálem GetTableListAndTriggerCopyData , klikněte na odkaz na název kanálu. Pro toto spuštění pipeliny byste měli vidět dva běhy aktivit.
Pokud chcete zobrazit výstup aktivity Vyhledávání, klikněte na výstupní odkaz vedle aktivity ve sloupci NÁZEV AKTIVITY. Okno Výstup můžete maximalizovat a obnovit. Po kontrole kliknutím na X zavřete okno Výstup.
{ "count": 9, "value": [ { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "Customer" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "ProductDescription" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "Product" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "ProductModelProductDescription" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "ProductCategory" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "Address" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "CustomerAddress" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "SalesOrderDetail" }, { "TABLE_SCHEMA": "SalesLT", "TABLE_NAME": "SalesOrderHeader" } ], "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)", "effectiveIntegrationRuntimes": [ { "name": "DefaultIntegrationRuntime", "type": "Managed", "location": "East US", "billedDuration": 0, "nodes": null } ] }
Chcete-li se vrátit do zobrazení Spuštění kanálu, klikněte na odkaz Všechna spuštění kanálu v horní části navigační nabídky. Klikněte na IterateAndCopySQLTables odkaz (ve sloupci JMÉNO POTRUBÍ) pro zobrazení běhů aktivit potrubí. Všimněte si, že ve výstupu aktivity Vyhledávání je spuštěná jedna aktivita kopírování pro každou tabulku.
Ověřte, že se data zkopírovala do cílové služby Azure Synapse Analytics, kterou jste použili v tomto kurzu.
Související obsah
V tomto kurzu jste provedli následující kroky:
- Vytvoření datové továrny
- Vytvořte propojené služby Azure SQL Database, Azure Synapse Analytics a Azure Storage.
- Vytvoření datových sad Azure SQL Database a Azure Synapse Analytics
- Vytvoření kanálu pro vyhledání tabulek ke zkopírování a dalšího kanálu pro provedení vlastní operace kopírování
- Zahajte běh pipeliny.
- Sledujte potrubí a běhy aktivit.
Pokud se chcete dozvědět víc o přírůstkovém kopírování ze zdroje do cíle, přejděte k následujícímu kurzu: