Jak ingestovat historická data do Azure Data Explorer

Běžným scénářem při onboardingu do Azure Data Explorer je ingestování historických dat, někdy označovaných jako backfill. Tento proces zahrnuje ingestování dat z existujícího systému úložiště do tabulky, což je kolekce rozsahů.

Doporučujeme ingestovat historická data pomocí vlastnosti creationTime příjmu dat a nastavit tak dobu vytváření rozsahů na čas vytvoření dat. Použití doby vytvoření jako kritéria dělení příjmu dat může vaše data stárnou v souladu se zásadami mezipaměti a uchovávání informací a zefektivnit časové filtry.

Ve výchozím nastavení je doba vytvoření rozsahů nastavená na čas, kdy se data ingestují, což nemusí vést k očekávanému chování. Předpokládejme například, že máte tabulku, která má dobu ukládání do mezipaměti 30 dnů a dobu uchovávání dva roky. V normálním toku se ingestovaná data při jejich vytvoření ukládají do mezipaměti po dobu 30 dnů a pak se přesunou do studeného úložiště. Po dvou letech se na základě doby vytvoření odeberou starší data každý den. Pokud ale ingestujete dva roky historických dat, ve výchozím nastavení jsou data označená časem vytvoření jako čas ingestování dat. To nemusí vést k požadovanému výsledku, protože:

  • Všechna data přistane v mezipaměti a zůstanou tam po dobu 30 dnů a využívají více mezipaměti, než jste očekávali.
  • Starší data se neodeberou každý den. Proto se data v clusteru uchovávají déle, než je nutné, a po dvou letech se všechna odeberou najednou.
  • Data, která byla dříve seskupována podle data ve zdrojovém systému, se teď můžou seskupit dohromady ve stejném rozsahu, což vede k neefektivním dotazům.

Diagram znázorňující očekávaný a skutečný výsledek ingestování historických dat pomocí výchozí doby vytváření

V tomto článku se dozvíte, jak dělit historická data:

  • Použití vlastnosti příjmu creationTime dat během příjmu dat (doporučeno)

    Pokud je to možné, ingestujte historická data pomocí creationTime vlastnosti příjmu dat, která umožňuje nastavit čas vytvoření rozsahů jejich extrahováním ze souboru nebo cesty k objektu blob. Pokud struktura složek nepoužívá vzor data vytvoření, doporučujeme změnit strukturu cesty k souboru nebo objektu blob tak, aby odpovídala času vytvoření. Při použití této metody se data ingestují do tabulky se správnou dobou vytvoření a správně se použijí doby uchovávání a mezipaměti.

    Poznámka

    Ve výchozím nastavení se rozsahy rozdělují podle doby vytvoření (příjmu dat) a ve většině případů není nutné nastavovat zásady dělení dat.

  • Použití zásad dělení po příjmu dat

    Pokud nemůžete použít vlastnost příjmu creationTime dat, například pokud ingestujete data pomocí konektoru Azure Cosmos DB , kde nemůžete řídit čas vytvoření nebo nemůžete změnit strukturu složek, můžete tabulku po příjmu dat rozdělit na oddíly, abyste dosáhli stejného efektu pomocí zásad dělení. Tato metoda však může vyžadovat určité pokusy a chyby pro optimalizaci vlastností zásad a je méně efektivní než použití vlastnosti příjmu creationTime dat. Tuto metodu jsme doporučili jenom v případě, že použití vlastnosti příjmu creationTime dat není možné.

Požadavky

Ingestování historických dat

Důrazně doporučujeme při příjmu dat rozdělit historická data pomocí vlastnosti příjmu creationTime dat. Pokud ale tuto metodu nemůžete použít, můžete tabulku po příjmu dat rozdělit na oddíly pomocí zásad dělení.

LightIngest může být užitečný k načtení historických dat z existujícího systému úložiště do Azure Data Explorer. I když můžete vytvořit vlastní příkaz pomocí seznamu argumentů příkazového řádku, tento článek ukazuje, jak tento příkaz automaticky vygenerovat prostřednictvím průvodce příjmem dat. Kromě vytvoření příkazu můžete pomocí tohoto procesu vytvořit novou tabulku a vytvořit mapování schématu. Tento nástroj odvodí mapování schématu z vaší datové sady.

Cíl

  1. V webovém uživatelském rozhraní Azure Data Explorer v nabídce vlevo vyberte Dotaz.

  2. Klikněte pravým tlačítkem na databázi, ve které chcete ingestovat data, a pak vyberte LightIngest.

    Snímek obrazovky webového uživatelského rozhraní Azure Data Explorer zobrazující nabídku Další databáze

    Otevře se okno Ingestovat data s vybranou kartou Cíl . Pole Cluster a Databáze se vyplní automaticky.

  3. Vyberte cílovou tabulku. Pokud chcete ingestovat data do nové tabulky, vyberte Nová tabulka a zadejte název tabulky.

    Poznámka

    Názvy tabulek můžou mít maximálně 1024 znaků včetně mezer, alfanumerických znaků, pomlček a podtržítka. Speciální znaky nejsou podporovány.

    Snímek obrazovky s kartou cíle zobrazující cílovou databázi a tabulku

  4. Vyberte Další: Zdroj.

Source

  1. V části Vybrat zdroj vyberte Přidat adresu URL nebo Vybrat kontejner.

    • Při přidávání adresy URL v části Odkaz na zdroj zadejte klíč účtu nebo adresu URL SAS ke kontejneru. Adresu URL SAS můžete vytvořit ručně nebo automaticky.

    • Při výběru kontejneru z účtu úložiště vyberte v rozevíracích nabídkách předplatné úložiště, účet úložiště a kontejner .

      Snímek obrazovky s dialogovým oknem pro výběr kontejneru z předplatného a účtu úložiště

    Poznámka

    Příjem dat podporuje maximální velikost souboru 6 GB. Doporučuje se ingestovat soubory od 100 MB do 1 GB.

  2. Vyberte Upřesnit nastavení a definujte další nastavení pro proces příjmu dat pomocí LightIngestu.

    Snímek obrazovky s výběrem upřesňujícího nastavení pro zpracování příjmu dat zahrnujícího nástroj LightIngest

  3. V podokně Rozšířená konfigurace definujte nastavení LightIngest podle následující tabulky.

    Snímek obrazovky s podoknem rozšířené konfigurace zobrazující další nastavení pro zpracování příjmu dat zahrnující nástroj LightIngest

    Vlastnost Popis
    Vzor času vytváření Zadejte, aby se vlastnost času příjmu dat vytvořeného rozsahu přepsala vzorem, například pro použití data založeného na struktuře složek kontejneru. Viz také Model času vytváření.
    Vzor názvu objektu blob Zadejte vzor použitý k identifikaci souborů, které se mají ingestovat. Ingestujte všechny soubory, které odpovídají vzoru názvu objektu blob v daném kontejneru. Podporuje zástupné cardy. Doporučujeme uzavřít do dvojitých uvozovek.
    Tag Značka přiřazená k přijatým datům. Značka může být libovolný řetězec.
    Omezit množství souborů Zadejte počet souborů, které lze ingestovat. Ingestuje první n soubory, které odpovídají vzoru názvů objektů blob, až do zadaného čísla.
    Nečekejte na dokončení příjmu dat Pokud je tato možnost nastavená, objekty blob ve frontě pro příjem dat bez monitorování procesu příjmu dat. Pokud není nastaveno, LightIngest se bude dál dotazovat na stav příjmu dat, dokud se příjem dat nedokončí.
    Zobrazit pouze vybrané položky Vypište soubory v kontejneru, ale neingestuje je.
  4. Výběrem možnosti Hotovo se vraťte na kartu Zdroj .

    1. Volitelně vyberte Filtry souborů a vyfiltrujte data tak, aby ingestovat pouze soubory v konkrétní cestě ke složce nebo s konkrétní příponou souboru.

      Snímek obrazovky s filtrováním dat na kartě zdroj na obrazovce Ingestovat nová data

      Ve výchozím nastavení se náhodně vybere jeden ze souborů v kontejneru a použije se k vygenerování schématu pro tabulku.

    2. Volitelně můžete v části Soubor definující schéma určit soubor, který se má použít.

  5. Vyberte Další: Schéma a zobrazte a upravte konfiguraci sloupce tabulky.

Schéma

Karta schématu poskytuje náhled dat.

Pokud chcete vygenerovat příkaz LightIngest, vyberte Další: Spustit příjem dat.

Nepovinná možnost:

  • Automaticky odvozený formát dat změníte tak, že v rozevírací nabídce vyberete požadovaný formát.
  • Změňte automaticky odvozený název mapování. Můžete použít alfanumerické znaky a podtržítka. Mezery, speciální znaky a pomlčky nejsou podporované.
  • Pokud používáte existující tabulku, můžete zachovat aktuální schéma tabulky , pokud schéma tabulky odpovídá vybranému formátu.
  • Vyberte Prohlížeč příkazů a zobrazte a zkopírujte automatické příkazy vygenerované ze vstupů.
  • Upravit sloupce. V části Náhled částečných dat vyberte rozevírací nabídky sloupců a upravte různé aspekty tabulky.

Změny, které můžete v tabulce provést, závisí na následujících parametrech:

  • Typ tabulky je nový nebo existující
  • Typ mapování je nový nebo existující
Typ tabulky Typ mapování Dostupné úpravy
Nová tabulka Nové mapování Změna datového typu, Přejmenovat sloupec, Nový sloupec, Odstranit sloupec, Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně
Existující tabulka Nové mapování Nový sloupec (u kterého pak můžete změnit datový typ, přejmenovat a aktualizovat),
Aktualizovat sloupec, seřadit vzestupně, seřadit sestupně
Existující mapování Seřadit vzestupně, Seřadit sestupně

Poznámka

Při přidávání nového sloupce nebo aktualizaci sloupce můžete změnit transformace mapování. Další informace najdete v tématu Mapování transformací.

Ingestování

  1. Jakmile jsou příkazy table, mapping a LightIngest označené zelenými značkami zaškrtnutí, vyberte ikonu kopírování v pravém horním rohu pole Vygenerovaný příkaz a zkopírujte vygenerovaný příkaz LightIngest.

    Snímek obrazovky s kartou Souhrn a vygenerovaným příkazem Příkaz můžete zkopírovat pomocí ikony kopírování nad polem vygenerovaného příkazu.

    Poznámka

    V případě potřeby si můžete stáhnout nástroj LightIngest tak, že vyberete Stáhnout LightIngest.

  2. K dokončení procesu příjmu dat musíte spustit LightIngest pomocí zkopírovaného příkazu.