Sdílet prostřednictvím


Hromadné kopírování z databáze do Azure Data Exploreru pomocí šablony Azure Data Factory

Azure Data Explorer je rychlá plně spravovaná služba pro analýzu dat. Nabízí analýzu velkých objemů dat, která streamují z mnoha zdrojů, jako jsou aplikace, weby a zařízení IoT.

Pokud chcete kopírovat data z databáze v Oracle Serveru, Netezza, Teradata nebo SQL Serveru do Azure Data Exploreru, musíte načíst obrovské objemy dat z více tabulek. Data se obvykle musí rozdělit do jednotlivých tabulek, abyste mohli načíst řádky s více vlákny paralelně z jedné tabulky. Tento článek popisuje šablonu, která se má v těchto scénářích použít.

Šablony služby Azure Data Factory jsou předdefinované kanály služby Data Factory. Tyto šablony vám můžou pomoct rychle začít se službou Data Factory a zkrátit dobu vývoje projektů integrace dat.

Hromadné kopírování z databáze do šablony Azure Data Exploreru vytvoříte pomocí aktivit Vyhledávání a ForEach. Pro rychlejší kopírování dat můžete pomocí šablony vytvořit mnoho kanálů pro každou databázi nebo tabulku.

Důležité

Nezapomeňte použít nástroj, který je vhodný pro množství dat, která chcete zkopírovat.

  • Pomocí šablony Hromadné kopírování z databáze do Azure Data Exploreru zkopírujte velké objemy dat z databází, jako je SQL server a Google BigQuery, do Azure Data Exploreru.
  • Pomocí nástroje Pro kopírování dat služby Data Factory zkopírujte několik tabulek s malými nebo středními objemy dat do Azure Data Exploreru.

Požadavky

Create ControlTableDataset

ControlTableDataset označuje, jaká data se zkopírují ze zdroje do cíle v kanálu. Počet řádků označuje celkový počet kanálů potřebných ke zkopírování dat. Jako součást zdrojové databáze byste měli definovat ControlTableDataset.

Příklad formátu zdrojové tabulky SQL Serveru je uvedený v následujícím kódu:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Prvky kódu jsou popsány v následující tabulce:

Vlastnost Popis Příklad
PartitionId Pořadí kopírování 0
SourceQuery Dotaz, který označuje, která data se zkopírují během modulu runtime kanálu.
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Název cílové tabulky Tabulka MyAdx

Pokud je vaše ControlTableDataset v jiném formátu, vytvořte srovnatelný ControlTableDataset pro váš formát.

Použití hromadného kopírování z databáze do šablony Azure Data Exploreru

  1. V podokně Začínáme vyberte Vytvořit kanál ze šablony a otevřete podokno Galerie šablon.

    Podokno Začínáme se službou Azure Data Factory

  2. Vyberte šablonu Hromadné kopírování z databáze do Azure Data Exploreru.

    Šablona Hromadné kopírování z databáze do Azure Data Exploreru

  3. V podokně Hromadné kopírování z databáze do Azure Data Exploreru v části Vstupy uživatelů zadejte datové sady následujícím způsobem:

    a. V rozevíracím seznamu ControlTableDataset vyberte propojenou službu s řídicí tabulkou, která označuje, jaká data se zkopírují ze zdroje do cíle a kam se umístí do cíle.

    b. V rozevíracím seznamu SourceDataset vyberte propojenou službu se zdrojovou databází.

    c. V rozevíracím seznamu AzureDataExplorerTable vyberte tabulku Azure Data Exploreru. Pokud datová sada neexistuje, vytvořte propojenou službu Azure Data Exploreru a přidejte datovou sadu.

    d. Vyberte Použít tuto šablonu.

    Podokno Hromadné kopírování z databáze do Azure Data Exploreru

  4. Pokud chcete získat přístup k kanálu šablony, vyberte oblast na plátně mimo aktivity. Vyberte kartu Parametry a zadejte parametry tabulky, včetně názvu tabulky (název řídicí tabulky) a výchozí hodnoty (názvy sloupců).

    Parametry kanálu.

  5. V části Vyhledat vyberte GetPartitionList a zobrazte výchozí nastavení. Dotaz se vytvoří automaticky.

  6. Vyberte aktivitu command, ForEachPartition, vyberte kartu Nastavení a pak udělejte toto:

    a. Do pole Počet dávek zadejte číslo od 1 do 50. Tento výběr určuje počet kanálů, které se spouští paralelně, dokud nedosáhnete počtu řádků ControlTableDataset .

    b. Chcete-li zajistit, aby dávky kanálu běžely paralelně, nevybírejte políčko Sekvenční .

    Nastavení ForEachPartition.

    Tip

    Osvědčeným postupem je paralelně spouštět mnoho kanálů, aby bylo možné data zkopírovat rychleji. Pokud chcete zvýšit efektivitu, rozdělte data ve zdrojové tabulce a přidělte jeden oddíl na kanál podle data a tabulky.

  7. Výběrem možnosti Ověřit vše ověřte kanál Služby Azure Data Factory a pak zobrazte výsledek v podokně Výstup ověření kanálu.

    Ověřte kanály šablony.

  8. V případě potřeby vyberte Ladit a pak vyberte Přidat aktivační událost pro spuštění kanálu.

    Tlačítka Ladit a Spustit kanál

Pomocí šablony teď můžete efektivně kopírovat velké objemy dat z databází a tabulek.