Kopírování dat ze služby Azure Blob Storage do databáze ve službě Azure SQL Database pomocí služby Azure Data Factory

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu vytvoříte datovou továrnu pomocí uživatelského rozhraní služby Azure Data Factory. Kanál v této datové továrně kopíruje data z Úložiště objektů blob v Azure do databáze ve službě Azure SQL Database. Schéma konfigurace v tomto kurzu se vztahuje na kopírování z úložiště dat založeného na souborech do relačního úložiště dat. Seznam úložišť dat, která jsou podporovaná jako zdroje a jímky, najdete v tabulce podporovaných úložišť dat.

Poznámka:

Pokud se službou Data Factory teprve začínáte, přečtěte si téma Úvod do Azure Data Factory.

V tomto kurzu budete provádět následující kroky:

  • Vytvoření datové továrny
  • Vytvoření kanálu s aktivitou kopírování
  • Testovací spuštění kanálu
  • Ruční aktivace kanálu
  • Aktivace kanálu podle plánu
  • Monitorování spuštění aktivit a kanálu

Požadavky

Vytvoření objektu blob a tabulky SQL

Teď si připravte úložiště Blob Storage a databázi SQL Database pro tento kurz, a to podle těchto kroků.

Vytvoření zdrojového objektu blob

  1. Spusťte Poznámkový blok. Zkopírujte následující text a uložte si ho na disk jako soubor emp.txt:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. V úložišti Blob Storage vytvořte kontejner s názvem adftutorial. V tomto kontejneru vytvořte složku input. Pak do složky input nahrajte soubor emp.txt. K provedení těchto úloh použijte Azure Portal nebo nástroj, jako je například Průzkumník služby Azure Storage.

Vytvoření tabulky SQL jímky

  1. K vytvoření tabulky dbo.emp v databázi použijte následující skript SQL:

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50)
    )
    GO
    
    CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
    
  2. Povolte službám Azure přístup k SQL Serveru. Zkontrolujte, že je nastavení Povolit přístup ke službám Azure pro váš SQL Server ZAPNUTÉ, aby mohla služba Data Factory na tento SQL Server zapisovat data. Pokud chcete toto nastavení ověřit a zapnout, přejděte do části Přehled logického SQL Serveru > – > Nastavení brány firewall> serveru nastavte možnost Povolit přístup ke službám Azure na zapnuto.

Vytvoření datové továrny

V tomto kroku vytvoříte datovou továrnu a spustíte uživatelské rozhraní služby Data Factory, ve kterém v této datové továrně vytvoříte kanál.

  1. Otevřete Microsoft Edge nebo Google Chrome. Uživatelské rozhraní služby Data Factory podporují v současnosti jenom webové prohlížeče Microsoft Edge a Google Chrome.

  2. V nabídce vlevo vyberte Vytvořit službu Data Factory pro integraci>prostředků>.

  3. Na stránce Vytvořit datovou továrnu na kartě Základy vyberte předplatné Azure, ve kterém chcete vytvořit datovou továrnu.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    a. V rozevíracím seznamu vyberte existující skupinu prostředků.

    b. Vyberte Vytvořit nový a zadejte název nové skupiny prostředků.

    Informace o skupinách prostředků najdete v tématu Použití skupin prostředků ke správě prostředků Azure.

  5. V části Oblast vyberte umístění datové továrny. V rozevíracím seznamu se zobrazí pouze podporovaná umístění. Úložiště dat (například Azure Storage a SQL Database) a výpočetní prostředí (například Azure HDInsight) používaná datovou továrnou můžou být v jiných oblastech.

  6. V části Název zadejte ADFTutorialDataFactory.

    Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí chybová zpráva týkající se hodnoty názvu, zadejte jiný název datové továrny. (například vaše_jménoADFTutorialDataFactory). Pravidla pro pojmenovávání artefaktů služby Data Factory najdete v tématu Data Factory – pravidla pojmenování.

    New data factory error message for duplicate name.

  7. Jako Verzi vyberte V2.

  8. Nahoře vyberte kartu konfigurace Gitu a zaškrtněte políčko Konfigurovat Git později .

  9. Vyberte Zkontrolovat a vytvořit a po úspěšném ověření vyberte Vytvořit .

  10. Po vytvoření se v Centru oznámení zobrazí oznámení. Výběrem možnosti Přejít k prostředku přejděte na stránku Datové továrny.

  11. Výběrem možnosti Otevřít na dlaždici Otevřít Azure Data Factory Studio spustíte uživatelské rozhraní služby Azure Data Factory na samostatné kartě.

Vytvořit kanál

V tomto kroku vytvoříte v datové továrně kanál s aktivitou kopírování. Aktivita kopírování kopíruje data z úložiště Blob Storage do databáze SQL Database. V kurzu Rychlý start jste vytvořili kanál pomocí tohoto postupu:

  1. Vytvoření propojené služby
  2. Vytvoření vstupní a výstupní datové sady
  3. Vytvořit kanál.

V tomto kurzu začnete vytvořením kanálu. Potom vytvoříte propojené služby a datové sady, které budete potřebovat ke konfiguraci kanálu.

  1. Na domovské stránce vyberte Orchestrate (Orchestrate).

    Screenshot that shows the ADF home page.

  2. Na panelu Obecné v části Vlastnosti zadejte CopyPipeline pro Název. Potom panel sbalte kliknutím na ikonu Vlastnosti v pravém horním rohu.

  3. V okně Nástroje Aktivity rozbalte kategorii Přesunout a transformovat a přetáhněte aktivitu kopírování dat z pole nástroje na plochu návrháře kanálu. Jako Název zadejte CopyFromBlobToSql.

    Copy activity

Konfigurace zdroje

Tip

V tomto kurzu použijete klíč účtu jako typ ověřování pro zdrojové úložiště dat, ale v případě potřeby můžete zvolit jiné podporované metody ověřování: identifikátor URI SAS, instanční objekt a spravovaná identita . Podrobnosti najdete v odpovídajících částech tohoto článku . Pokud chcete bezpečně ukládat tajné kódy pro úložiště dat, doporučuje se také použít Azure Key Vault. Podrobné ilustrace najdete v tomto článku .

  1. Přejděte na kartu Zdroj . Vyberte + Nový a vytvořte zdrojovou datovou sadu.

  2. V dialogovém okně Nová datová sada vyberte Azure Blob Storage a pak vyberte Pokračovat. Zdrojová data jsou v úložišti Blob Storage, takže jako zdrojovou datovou sadu vyberete Azure Blob Storage.

  3. V dialogovém okně Vybrat formát zvolte typ formátu dat a pak vyberte Pokračovat.

  4. V dialogovém okně Nastavit vlastnosti zadejte SourceBlobDataset pro název. Zaškrtněte políčko u prvního řádku jako záhlaví. V textovém poli Propojená služba vyberte + Nový.

  5. V dialogovém okně Nová propojená služba (Azure Blob Storage) zadejte jako název službu AzureStorageLinkedService a v seznamu názvů účtů úložiště vyberte svůj účet úložiště. Otestujte připojení a výběrem možnosti Vytvořit nasaďte propojenou službu.

  6. Po vytvoření propojené služby se vrátí zpět na stránku Nastavit vlastnosti . Vedle pole Cesta k souboru vyberte Procházet.

  7. Přejděte do složky adftutorial/input , vyberte soubor emp.txt a pak vyberte OK.

  8. Vyberte OK. Automaticky přejde na stránku kanálu. Na kartě Zdroj potvrďte, že je vybraná sada SourceBlobDataset . Pokud se na této stránce chcete podívat na náhled dat, vyberte Náhled dat.

    Source dataset

Konfigurace jímky

Tip

V tomto kurzu použijete ověřování SQL jako typ ověřování pro úložiště dat jímky, ale v případě potřeby můžete zvolit jiné podporované metody ověřování: Instanční objekt a spravovaná identita . Podrobnosti najdete v odpovídajících částech tohoto článku . Pokud chcete bezpečně ukládat tajné kódy pro úložiště dat, doporučuje se také použít Azure Key Vault. Podrobné ilustrace najdete v tomto článku .

  1. Přejděte na kartu Jímka, vyberte + Nová a vytvořte datovou sadu jímky.

  2. V dialogovém okně Nová datová sada zadejte do vyhledávacího pole "SQL" pro filtrování konektorů, vyberte Azure SQL Database a pak vyberte Pokračovat. V tomto kurzu zkopírujte data do databáze SQL Database.

  3. V dialogovém okně Nastavit vlastnosti zadejte outputSqlDataset pro název. V rozevíracím seznamu Propojená služba vyberte + Nový. Datová sada musí být přidružená k propojené službě. Propojená služba má připojovací řetězec, kterou služba Data Factory používá k připojení ke službě SQL Database za běhu. Datová sada určuje kontejner, složku a soubor (volitelné), do kterého se data kopírují.

  4. V dialogovém okně Nová propojená služba (Azure SQL Database) proveďte následující kroky:

    a. Do pole Název zadejte AzureSqlDatabaseLinkedService.

    b. V rozevíracím seznamu Název serveru vyberte příslušný název instance SQL Serveru.

    c. V části Název databáze vyberte databázi.

    d. Do pole Uživatelské jméno zadejte jméno uživatele.

    e. Do pole Heslo zadejte heslo pro tohoto uživatele.

    f. Vyberte Otestovat připojení a připojení otestujte.

    g. Výběrem možnosti Vytvořit nasadíte propojenou službu.

    Save new linked service

  5. Automaticky přejde do dialogového okna Nastavit vlastnosti . V rozevíracím seznamu Tabulka vyberte [dbo].[emp]. Pak vyberte OK.

  6. Přejděte na kartu s kanálem a zkontrolujte, že je v rozevíracím seznamu Datová sada jímky vybraná sada OutputSqlDataset.

    Pipeline tab

Volitelně můžete schéma zdroje namapovat na odpovídající schéma cíle pomocí mapování schématu v aktivitě kopírování.

Ověření kanálu

Vyberte Ověřit z panelu nástrojů a kanál ověřte.

Kód JSON přidružený ke kanálu můžete zobrazit kliknutím na Kód v pravém horním rohu.

Ladění a publikování kanálu

Před publikováním artefaktů (propojených služeb, datových sad a kanálu) do služby Data Factory nebo vlastního úložiště Gitu Azure Repos můžete kanál odladit.

  1. K ladění kanálu vyberte na panelu nástrojů Ladit. Na kartě Výstup v dolní části okna se zobrazí stav spuštění kanálu.

  2. Po úspěšném spuštění kanálu vyberte na horním panelu nástrojů možnost Publikovat vše. Touto akcí publikujete vytvořené entity (datové sady a kanály) do služby Data Factory.

  3. Počkejte, dokud se nezobrazí zpráva Publikování proběhlo úspěšně. Pokud chcete zobrazit zprávy oznámení, klikněte vpravo nahoře (tlačítko zvonečku) na Zobrazit oznámení.

Ruční aktivace kanálu

V tomto kroku ručně aktivujete kanál, který jste publikovali v minulém kroku.

  1. Vyberte na panelu nástrojů Aktivační událost a potom vyberte Aktivovat. Na stránce Spuštění kanálu vyberte OK.

  2. Vlevo přejděte na kartu Monitorování. Zobrazí se stav ručně aktivovaného spuštění kanálu. Pomocí odkazů ve sloupci NÁZEV KANÁLU můžete zobrazit podrobnosti o aktivitě a znovu spustit kanál.

    Monitor pipeline runs

  3. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte odkaz CopyPipeline ve sloupci NÁZEV KANÁLU. V tomto příkladu je jenom jedna aktivita, takže v seznamu uvidíte jenom jednu položku. Podrobnosti o operaci kopírování získáte tak, že ve sloupci NÁZEV AKTIVITY vyberete odkaz Podrobnosti (ikona brýle). Výběrem možnosti Všechny spuštění kanálu v horní části se vraťte do zobrazení Spuštění kanálu. Jestliže chcete zobrazení aktualizovat, vyberte Aktualizovat.

    Monitor activity runs

  4. Ověřte, že jsou do tabulky emp v databázi přidány dva další řádky.

Aktivace kanálu podle plánu

V tomto kroku vytvoříte pro kanál aktivační událost plánovače. Tato aktivační událost spouští kanál podle zadaného plánu (například každou hodinu nebo každý den). Tady nastavíte trigger tak, aby se spouštěl každou minutu až do zadaného koncového data a času.

  1. Vlevo nad kartou monitorování přejděte na kartu Autor.

  2. Přejděte na kanál, na panelu nástrojů klikněte na Aktivační událost a vyberte Nové/upravit.

  3. V dialogovém okně Přidat triggery vyberte + Nový pro oblast zvolit aktivační událost .

  4. V okně Nová aktivační událost proveďte následující kroky:

    a. Do pole Název zadejte RunEveryMinute.

    b. Aktualizujte počáteční datum triggeru. Pokud je datum před aktuálním datem a časem, trigger se začne projevit po publikování změny.

    c. V části Časové pásmo vyberte rozevírací seznam.

    d. Nastavte opakování na každých 1 minut.

    e. Zaškrtněte políčko Zadat koncové datum a aktualizujte část End On na několik minut po aktuálním datu datetime. Aktivační událost se aktivuje pouze po publikování změn. Pokud nastavíte jenom pár minut od sebe a nepublikujete ho do té míry, nezobrazí se spuštění triggeru.

    f. U možnosti Aktivováno vyberte Ano.

    g. Vyberte OK.

    Důležité

    S každým spuštěním kanálu jsou spojené určité náklady, takže nastavte koncové datum správně.

  5. Na stránce Upravit aktivační událost zkontrolujte upozornění a pak vyberte Uložit. Kanál v tomto příkladu nepoužívá žádné parametry.

  6. Kliknutím na Publikovat vše publikujte změnu.

  7. Vlevo přejděte na kartu Monitorování, kde uvidíte aktivovaná spuštění kanálu.

    Triggered pipeline runs

  8. Pokud chcete přepnout ze zobrazení Spuštění kanálu na zobrazení Spuštění triggeru, vyberte Spuštění triggerů na levé straně okna.

  9. V seznamu se zobrazí spuštění aktivační události.

  10. Ověřte, že se až do uplynutí zadaného koncového času budou do tabulky emp vkládat dva řádky za minutu (pro každé spuštění kanálu).

Kanál v této ukázce kopíruje data z jednoho umístění do jiného umístění v úložišti Blob Storage. Naučili jste se:

  • Vytvoření datové továrny
  • Vytvoření kanálu s aktivitou kopírování
  • Testovací spuštění kanálu
  • Ruční aktivace kanálu
  • Aktivace kanálu podle plánu
  • Monitorování spuštění aktivit a kanálu

Přejděte k dalšímu kurzu, kde se naučíte kopírovat data z místního prostředí do cloudu: