Jak ingestovat historická data do Azure Data Explorer
Běžným scénářem při onboardingu do Azure Data Explorer je ingestování historických dat, někdy označovaných jako backfill. Tento proces zahrnuje ingestování dat z existujícího systému úložiště do tabulky, což je kolekce rozsahů.
Doporučujeme ingestovat historická data pomocí vlastnosti creationTime příjmu dat a nastavit tak dobu vytváření rozsahů na čas vytvoření dat. Použití doby vytvoření jako kritéria dělení příjmu dat může vaše data stárnou v souladu se zásadami mezipaměti a uchovávání informací a zefektivnit časové filtry.
Ve výchozím nastavení je doba vytvoření rozsahů nastavená na čas, kdy se data ingestují, což nemusí vést k očekávanému chování. Předpokládejme například, že máte tabulku, která má dobu ukládání do mezipaměti 30 dnů a dobu uchovávání dva roky. V normálním toku se ingestovaná data při jejich vytvoření ukládají do mezipaměti po dobu 30 dnů a pak se přesunou do studeného úložiště. Po dvou letech se na základě doby vytvoření odeberou starší data každý den. Pokud ale ingestujete dva roky historických dat, ve výchozím nastavení jsou data označená časem vytvoření jako čas ingestování dat. To nemusí vést k požadovanému výsledku, protože:
- Všechna data přistane v mezipaměti a zůstanou tam po dobu 30 dnů a využívají více mezipaměti, než jste očekávali.
- Starší data se neodeberou každý den. Proto se data v clusteru uchovávají déle, než je nutné, a po dvou letech se všechna odeberou najednou.
- Data, která byla dříve seskupována podle data ve zdrojovém systému, se teď můžou seskupit dohromady ve stejném rozsahu, což vede k neefektivním dotazům.
V tomto článku se dozvíte, jak dělit historická data:
Použití vlastnosti příjmu
creationTime
dat během příjmu dat (doporučeno)Pokud je to možné, ingestujte historická data pomocí
creationTime
vlastnosti příjmu dat, která umožňuje nastavit čas vytvoření rozsahů jejich extrahováním ze souboru nebo cesty k objektu blob. Pokud struktura složek nepoužívá vzor data vytvoření, doporučujeme změnit strukturu cesty k souboru nebo objektu blob tak, aby odpovídala času vytvoření. Při použití této metody se data ingestují do tabulky se správnou dobou vytvoření a správně se použijí doby uchovávání a mezipaměti.Poznámka
Ve výchozím nastavení se rozsahy rozdělují podle doby vytvoření (příjmu dat) a ve většině případů není nutné nastavovat zásady dělení dat.
Použití zásad dělení po příjmu dat
Pokud nemůžete použít vlastnost příjmu
creationTime
dat, například pokud ingestujete data pomocí konektoru Azure Cosmos DB , kde nemůžete řídit čas vytvoření nebo nemůžete změnit strukturu složek, můžete tabulku po příjmu dat rozdělit na oddíly, abyste dosáhli stejného efektu pomocí zásad dělení. Tato metoda však může vyžadovat určité pokusy a chyby pro optimalizaci vlastností zásad a je méně efektivní než použití vlastnosti příjmucreationTime
dat. Tuto metodu jsme doporučili jenom v případě, že použití vlastnosti příjmucreationTime
dat není možné.
Požadavky
- Účet Microsoft nebo identita uživatele Microsoft Entra. Předplatné Azure se nevyžaduje.
- Cluster a databáze Azure Data Explorer. Vytvořte cluster a databázi.
- Účet úložiště.
- Pro doporučenou metodu použití vlastnosti příjmu dat během příjmu
creationTime
dat nainstalujte LightIngest.
Ingestování historických dat
Důrazně doporučujeme při příjmu dat rozdělit historická data pomocí vlastnosti příjmu creationTime
dat. Pokud ale tuto metodu nemůžete použít, můžete tabulku po příjmu dat rozdělit na oddíly pomocí zásad dělení.
LightIngest může být užitečný k načtení historických dat z existujícího systému úložiště do Azure Data Explorer. I když můžete vytvořit vlastní příkaz pomocí seznamu argumentů příkazového řádku, tento článek ukazuje, jak tento příkaz automaticky vygenerovat prostřednictvím průvodce příjmem dat. Kromě vytvoření příkazu můžete pomocí tohoto procesu vytvořit novou tabulku a vytvořit mapování schématu. Tento nástroj odvodí mapování schématu z vaší datové sady.
Cíl
V webovém uživatelském rozhraní Azure Data Explorer v nabídce vlevo vyberte Dotaz.
Klikněte pravým tlačítkem na databázi, ve které chcete ingestovat data, a pak vyberte LightIngest.
Otevře se okno Ingestovat data s vybranou kartou Cíl . Pole Cluster a Databáze se vyplní automaticky.
Vyberte cílovou tabulku. Pokud chcete ingestovat data do nové tabulky, vyberte Nová tabulka a zadejte název tabulky.
Poznámka
Názvy tabulek můžou mít maximálně 1024 znaků včetně mezer, alfanumerických znaků, pomlček a podtržítka. Speciální znaky nejsou podporovány.
Vyberte Další: Zdroj.
Source
V části Vybrat zdroj vyberte Přidat adresu URL nebo Vybrat kontejner.
Při přidávání adresy URL v části Odkaz na zdroj zadejte klíč účtu nebo adresu URL SAS ke kontejneru. Adresu URL SAS můžete vytvořit ručně nebo automaticky.
Při výběru kontejneru z účtu úložiště vyberte v rozevíracích nabídkách předplatné úložiště, účet úložiště a kontejner .
Poznámka
Příjem dat podporuje maximální velikost souboru 6 GB. Doporučuje se ingestovat soubory od 100 MB do 1 GB.
Vyberte Upřesnit nastavení a definujte další nastavení pro proces příjmu dat pomocí LightIngestu.
V podokně Rozšířená konfigurace definujte nastavení LightIngest podle následující tabulky.
Vlastnost Popis Vzor času vytváření Zadejte, aby se vlastnost času příjmu dat vytvořeného rozsahu přepsala vzorem, například pro použití data založeného na struktuře složek kontejneru. Viz také Model času vytváření. Vzor názvu objektu blob Zadejte vzor použitý k identifikaci souborů, které se mají ingestovat. Ingestujte všechny soubory, které odpovídají vzoru názvu objektu blob v daném kontejneru. Podporuje zástupné cardy. Doporučujeme uzavřít do dvojitých uvozovek. Tag Značka přiřazená k přijatým datům. Značka může být libovolný řetězec. Omezit množství souborů Zadejte počet souborů, které lze ingestovat. Ingestuje první n
soubory, které odpovídají vzoru názvů objektů blob, až do zadaného čísla.Nečekejte na dokončení příjmu dat Pokud je tato možnost nastavená, objekty blob ve frontě pro příjem dat bez monitorování procesu příjmu dat. Pokud není nastaveno, LightIngest se bude dál dotazovat na stav příjmu dat, dokud se příjem dat nedokončí. Zobrazit pouze vybrané položky Vypište soubory v kontejneru, ale neingestuje je. Výběrem možnosti Hotovo se vraťte na kartu Zdroj .
Volitelně vyberte Filtry souborů a vyfiltrujte data tak, aby ingestovat pouze soubory v konkrétní cestě ke složce nebo s konkrétní příponou souboru.
Ve výchozím nastavení se náhodně vybere jeden ze souborů v kontejneru a použije se k vygenerování schématu pro tabulku.
Volitelně můžete v části Soubor definující schéma určit soubor, který se má použít.
Vyberte Další: Schéma a zobrazte a upravte konfiguraci sloupce tabulky.
Schéma
Karta schématu poskytuje náhled dat.
Pokud chcete vygenerovat příkaz LightIngest, vyberte Další: Spustit příjem dat.
Nepovinná možnost:
- Automaticky odvozený formát dat změníte tak, že v rozevírací nabídce vyberete požadovaný formát.
- Změňte automaticky odvozený název mapování. Můžete použít alfanumerické znaky a podtržítka. Mezery, speciální znaky a pomlčky nejsou podporované.
- Pokud používáte existující tabulku, můžete zachovat aktuální schéma tabulky , pokud schéma tabulky odpovídá vybranému formátu.
- Vyberte Prohlížeč příkazů a zobrazte a zkopírujte automatické příkazy vygenerované ze vstupů.
- Upravit sloupce. V části Náhled částečných dat vyberte rozevírací nabídky sloupců a upravte různé aspekty tabulky.
Změny, které můžete v tabulce provést, závisí na následujících parametrech:
- Typ tabulky je nový nebo existující
- Typ mapování je nový nebo existující
Typ tabulky | Typ mapování | Dostupné úpravy |
---|---|---|
Nová tabulka | Nové mapování | Změna datového typu, Přejmenovat sloupec, Nový sloupec, Odstranit sloupec, Aktualizovat sloupec, Seřadit vzestupně, Seřadit sestupně |
Existující tabulka | Nové mapování | Nový sloupec (u kterého pak můžete změnit datový typ, přejmenovat a aktualizovat), Aktualizovat sloupec, seřadit vzestupně, seřadit sestupně |
Existující mapování | Seřadit vzestupně, Seřadit sestupně |
Poznámka
Při přidávání nového sloupce nebo aktualizaci sloupce můžete změnit transformace mapování. Další informace najdete v tématu Mapování transformací.
Ingestování
Jakmile jsou příkazy table, mapping a LightIngest označené zelenými značkami zaškrtnutí, vyberte ikonu kopírování v pravém horním rohu pole Vygenerovaný příkaz a zkopírujte vygenerovaný příkaz LightIngest.
Poznámka
V případě potřeby si můžete stáhnout nástroj LightIngest tak, že vyberete Stáhnout LightIngest.
K dokončení procesu příjmu dat musíte spustit LightIngest pomocí zkopírovaného příkazu.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro