Jak ingestovat data pomocí služby Azure Data Factory ve službě Azure Cosmos DB for PostgreSQL

PLATÍ PRO: Azure Cosmos DB for PostgreSQL (využívající rozšíření databáze Citus do PostgreSQL)

Azure Data Factory je cloudová služba ETL a integrace dat. Umožňuje vytvářet pracovní postupy řízené daty pro přesun a transformaci dat ve velkém měřítku.

Pomocí služby Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty (označované jako kanály), které ingestují data z různorodých úložišť dat. Kanály můžou spouštět místně, v Azure nebo na jiných poskytovatelích cloudu pro analýzy a vytváření sestav.

Data Factory obsahuje datovou jímku pro službu Azure Cosmos DB for PostgreSQL. Jímka dat umožňuje přenést data (relační, NoSQL, soubory data Lake) do tabulek Azure Cosmos DB for PostgreSQL pro ukládání, zpracování a vytváření sestav.

Dataflow diagram for Azure Data Factory.

Důležité

Služba Data Factory v současnosti nepodporuje privátní koncové body pro službu Azure Cosmos DB for PostgreSQL.

Data Factory pro příjem dat v reálném čase

Tady jsou klíčové důvody, proč si vybrat Azure Data Factory pro příjem dat do služby Azure Cosmos DB for PostgreSQL:

  • Snadné použití – nabízí vizuální prostředí bez kódu pro orchestraci a automatizaci přesunu dat.
  • Výkon – využívá plnou kapacitu základní šířky pásma sítě až do 5 GiB/s propustnosti.
  • Integrované konektory – Integruje všechny zdroje dat s více než 90 integrovanými konektory.
  • Nákladově efektivní – podporuje průběžné platby, plně spravovanou bezserverovou cloudovou službu, která se škáluje na vyžádání.

Postup použití služby Data Factory

V tomto článku vytvoříte datový kanál pomocí uživatelského rozhraní služby Data Factory. Kanál v této datové továrně kopíruje data z úložiště objektů blob v Azure do databáze. Seznam úložišť dat, která jsou podporovaná jako zdroje a jímky, najdete v tabulce podporovaných úložišť dat.

Ve službě Data Factory můžete pomocí aktivity kopírování kopírovat data mezi úložišti dat umístěnými místně a v cloudu do služby Azure Cosmos DB for PostgreSQL. Pokud se službou Data Factory začínáte, tady je stručný průvodce, jak začít:

  1. Po zřízení služby Data Factory přejděte do datové továrny a spusťte Azure Data Factory Studio. Zobrazí se domovská stránka služby Data Factory, jak je znázorněno na následujícím obrázku:

    Screenshot showing the landing page of Azure Data Factory.

  2. Na domovské stránce nástroje Azure Data Factory Studio vyberte Orchestrate (Orchestrate).

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. V části Vlastnosti zadejte název kanálu.

  4. V sadě nástrojů Aktivity rozbalte kategorii Přesunout a transformovat a přetáhněte aktivitu kopírování dat na plochu návrháře kanálu. V dolní části podokna návrháře na kartě Obecné zadejte název aktivity kopírování.

    Screenshot showing a pipeline in Azure Data Factory.

  5. Konfigurovat zdroj.

    1. Na stránce Aktivity vyberte kartu Zdroj. Vyberte Možnost Nový a vytvořte zdrojovou datovou sadu.

    2. V dialogovém okně Nová datová sada vyberte Azure Blob Storage a pak vyberte Pokračovat.

    3. Zvolte typ formátu dat a pak vyberte Pokračovat.

    4. Na stránce Nastavit vlastnosti v části Propojená služba vyberte Nový.

    5. Na stránce Nová propojená služba zadejte název propojené služby a v seznamu názvů účtů úložiště vyberte svůj účet úložiště.

      Screenshot that shows configuring Source in Azure Data Factory.

    6. V části Test připojení vyberte Do cesty k souboru, zadejte kontejner a adresář, ke kterému se chcete připojit, a pak vyberte Test připojení.

    7. Výběrem možnosti Vytvořit uložte konfiguraci.

    8. Na obrazovce Nastavit vlastnosti vyberte OK.

  6. Konfigurace jímky

    1. Na stránce Aktivity vyberte kartu Jímka. Výběrem možnosti Nový vytvořte datovou sadu jímky.

    2. V dialogovém okně Nová datová sada vyberte Azure Database for PostgreSQL a pak vyberte Pokračovat.

    3. Na stránce Nastavit vlastnosti v části Propojená služba vyberte Nový.

    4. Na stránce Nová propojená služba zadejte název propojené služby a v metodě výběru účtu vyberte Zadat ručně.

    5. Do pole Plně kvalifikovaný název názvu domény zadejte název koordinátoru vašeho clusteru. Název koordinátora můžete zkopírovat ze stránky Přehled vašeho clusteru Azure Cosmos DB for PostgreSQL.

    6. Ponechte výchozí port 5432 v poli Port pro přímé připojení ke koordinátorovi nebo ho nahraďte portem 6432 pro připojení ke spravovanému portu PgBouncer .

    7. Zadejte název databáze v clusteru a zadejte přihlašovací údaje pro připojení k němu.

    8. V rozevíracím seznamu Metoda šifrování vyberte PROTOKOL SSL.

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. Výběrem možnosti Test připojení v dolní části panelu ověřte konfiguraci jímky.

    10. Výběrem možnosti Vytvořit uložte konfiguraci.

    11. Na obrazovce Nastavit vlastnosti vyberte OK.

    12. Na kartě Jímka na stránce Aktivity vyberte Otevřít vedle rozevíracího seznamu Datová sada jímky a vyberte název tabulky v cílovém clusteru, ve kterém chcete ingestovat data.

    13. V části Zapisovat metodu vyberte Kopírovat příkaz.

    Screenshot that shows selecting the table and Copy command.

  7. Na panelu nástrojů nad plátnem vyberte Ověřit a ověřte nastavení kanálu. Opravte všechny chyby, znovu proveďte aktualizaci a ujistěte se, že je kanál úspěšně ověřen.

  8. Výběrem možnosti Ladit na panelu nástrojů spusťte kanál.

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. Po úspěšném spuštění kanálu vyberte na horním panelu nástrojů možnost Publikovat vše. Tato akce publikuje entity (datové sady a kanály), které jste vytvořili ve službě Data Factory.

Volání uložené procedury ve službě Data Factory

V některých konkrétních scénářích můžete chtít volat uloženou proceduru nebo funkci pro nabízení agregovaných dat z pracovní tabulky do souhrnné tabulky. Služba Data Factory nenabízí aktivitu uložených procedur pro službu Azure Cosmos DB for PostgreSQL, ale jako alternativní řešení můžete použít aktivitu Vyhledávání s dotazem k volání uložené procedury, jak je znázorněno níže:

Screenshot that shows calling a procedure in Azure Data Factory.

Další kroky