Přehled příjmu dat v Azure Data Exploreru

Příjem dat zahrnuje načtení dat do tabulky v clusteru. Azure Data Explorer zajišťuje platnost dat, převádí formáty podle potřeby a provádí manipulace, jako jsou porovnávání schémat, uspořádání, indexování, kódování a komprese. Po ingestování jsou data k dispozici pro dotazování.

Azure Data Explorer nabízí jednorázový příjem dat nebo vytvoření kanálu průběžného příjmu dat pomocí streamování nebo příjmu dat ve frontě. Pokud chcete zjistit, co je pro vás vhodné, podívejte se na téma Příjem jednorázových dat a Průběžný příjem dat.

Poznámka

Data se uchovávají v úložišti podle nastavených zásad uchovávání informací.

Jednorázový příjem dat

Jednorázový příjem dat je užitečný pro přenos historických dat, vyplňování chybějících dat a počáteční fáze vytváření prototypů a analýzy dat. Tento přístup usnadňuje rychlou integraci dat bez nutnosti průběžného závazku kanálu.

Existuje několik způsobů, jak provést jednorázový příjem dat. Pomocí následujícího rozhodovacího stromu určete nejvhodnější možnost pro váš případ použití:

Vývojový diagram pro rozhodování o jednorázovém příjmu dat

Další informace najdete v příslušné dokumentaci:

Popisek Relevantní dokumentace
Projděte si formáty dat podporované službou Azure Data Explorer pro příjem dat.
Projděte si formáty souborů podporované pro kanály Azure Data Factory.
Pokud chcete importovat data z existujícího systému úložiště, přečtěte si téma Jak ingestovat historická data do Azure Data Explorer.
Ve webovém uživatelském rozhraní Azure Data Explorer můžete získat data z místního souboru, AmazonU S3 nebo z Azure Storage.
Informace o integraci s Azure Data Factory najdete v tématu Kopírování dat do Azure Data Explorer pomocí Azure Data Factory.
Klientské knihovny Kusto jsou dostupné pro jazyky C#, Python, Java, JavaScript, TypeScript a Go. Můžete napsat kód pro manipulaci s daty a pak pomocí knihovny Kusto Ingest ingestovat data do tabulky Azure Data Explorer. Data musí být před příjmem dat v jednom z podporovaných formátů .

Průběžný příjem dat

Průběžný příjem dat je vynikající v situacích vyžadujících okamžité přehledy z živých dat. Průběžný příjem dat je například užitečný pro monitorování systémů, dat protokolů a událostí a analýzu v reálném čase.

Průběžný příjem dat zahrnuje nastavení kanálu pro příjem dat se streamováním nebo příjmem dat ve frontě:

  • Příjem dat streamování: Tato metoda zajišťuje latenci malých sad dat v tabulce téměř v reálném čase. Data se ze zdroje streamování ingestují v mikrodávkách, nejprve se umístí do úložiště řádků a pak se přenesou do rozsahů úložiště sloupců. Další informace najdete v tématu Konfigurace příjmu dat streamování.

  • Příjem dat ve frontě: Tato metoda je optimalizovaná pro vysokou propustnost příjmu dat. Data se zasílají do dávek na základě vlastností příjmu dat. Malé dávky se pak sloučí a optimalizují pro rychlé výsledky dotazů. Ve výchozím nastavení jsou maximální hodnoty ve frontě 5 minut, 1 000 položek nebo celková velikost 1 GB. Limit velikosti dat pro příkaz pro příjem dat ve frontě je 6 GB. Tato metoda používá mechanismy opakování ke zmírnění přechodných selhání a používá sémantiku zasílání zpráv "alespoň jednou", aby se zajistilo, že se v procesu neztratí žádné zprávy. Další informace o příjmu dat ve frontě najdete v tématu Zásady dávkování příjmu dat.

Poznámka

Ve většině scénářů doporučujeme použít příjem dat ve frontě, protože se jedná o výkonnější možnost.

Existuje několik způsobů, jak nakonfigurovat průběžný příjem dat. Pomocí následujícího rozhodovacího stromu určete nejvhodnější možnost pro váš případ použití:

Diagram rozhodovacího stromu pro průběžný příjem dat

Další informace najdete v příslušné dokumentaci:

Popisek Relevantní dokumentace
Seznam konektorů najdete v tématu Přehled konektorů.
Vytvořte datové připojení služby Event Hubs. Integrace se službou Event Hubs poskytuje služby, jako je omezování, opakování, monitorování a upozornění.
Ingestování dat z Apache Kafka, distribuované streamovací platformy pro vytváření kanálů streamovaných dat v reálném čase.
Vytvořte datové připojení IoT Hub. Integrace se službou IoT Hubs poskytuje služby, jako je omezování, opakování, monitorování a upozornění.
Vytvořte datové připojení Event Gridu. Integrace se službou Event Grid poskytuje služby, jako je omezování, opakování, monitorování a upozornění.
Projděte si doprovodné materiály k příslušnému konektoru, jako jsou Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk a další. Další informace najdete v tématu Přehled konektorů.
Klientské knihovny Kusto jsou dostupné pro jazyky C#, Python, Java, JavaScript, TypeScript a Go. Můžete napsat kód pro manipulaci s daty a pak pomocí knihovny Kusto Ingest ingestovat data do tabulky Azure Data Explorer. Data musí být před příjmem dat v jednom z podporovaných formátů .

Poznámka

Ingestování streamování se nepodporuje pro všechny metody příjmu dat. Podrobnosti o podpoře najdete v dokumentaci ke konkrétní metodě příjmu dat.

Přímý příjem dat pomocí příkazů pro správu

Azure Data Explorer nabízí následující příkazy pro správu příjmu dat, které ingestují data přímo do clusteru a nepoužívají službu správy dat. Měly by se používat pouze pro zkoumání a vytváření prototypů, a ne ve scénářích výroby nebo ve velkoobsadových scénářích.

  • Vložený příjem dat: Vložený příkaz .ingest obsahuje data, která ingestují jako součást samotného textu příkazu. Tato metoda je určena pro improvizované testovací účely.
  • Ingestování z dotazu: Příkazy .set, .append, .set-or-append nebo .set-or-replace nepřímo určují data, která se mají ingestovat, jako výsledky dotazu nebo příkazu.
  • Ingestování z úložiště: Příkaz .ingest into načte data ingestovat z externího úložiště, jako je například Azure Blob Storage, které je přístupné z vašeho clusteru a na které příkaz ukazuje.

Porovnání metod příjmu dat

Následující tabulka porovnává hlavní metody příjmu dat:

Název příjmu dat Datový typ Maximální velikost souboru Streamování, ve frontě, přímé Nejběžnější scénáře Požadavky
Konektor Apache Spark Všechny formáty podporované prostředím Sparku Unlimited Ve frontě Stávající kanál, předzpracování Sparku před ingestováním, rychlý způsob vytvoření bezpečného kanálu streamování (Spark) z různých zdrojů, které prostředí Spark podporuje. Zvažte náklady na cluster Spark. V případě dávkového zápisu porovnejte s Azure Data Explorer datové připojení pro Event Grid. V případě streamování Sparku porovnejte s datovým připojením pro centrum událostí.
Azure Data Factory (ADF) Podporované formáty dat Neomezené. Dědí omezení ADF. Aktivační událost zařazená do fronty nebo pro ADF Podporuje nepodporované formáty, jako jsou Excel a XML, a můžou kopírovat velké soubory z více než 90 zdrojů, z místa na počítači do cloudu. Tato metoda trvá relativně více času, než se data ingestují. ADF nahraje všechna data do paměti a pak zahájí příjem dat.
Event Grid Podporované formáty dat 1 GB nekomprimované Ve frontě Průběžný příjem dat z úložiště Azure, externí data ve službě Azure Storage Příjem dat je možné aktivovat přejmenováním objektu blob nebo akcemi vytvoření objektu blob.
Centrum událostí Podporované formáty dat Ve frontě, streamování Zprávy, události
Získání prostředí pro data *SV, JSON 1 GB nekomprimované Fronta nebo přímý příjem dat Jednorázové schéma vytvoření tabulky, definice průběžného příjmu dat pomocí Event Gridu, hromadný příjem dat s kontejnerem (až 5 000 objektů blob; bez omezení při použití historického příjmu dat)
IoT Hub Podporované formáty dat Ve frontě, streamování Zprávy IoT, události IoT, vlastnosti IoT
Konektor Kafka Avro, ApacheAvro, JSON, CSV, Parquet a ORC Neomezené. Dědí omezení Javy. Ve frontě, streamování Existující kanál, vysoká spotřeba ze zdroje. Předvolba může být určena stávajícím použitím více výrobců nebo spotřebitelských služeb nebo požadovanou úrovní správy služeb.
Klientské knihovny Kusto Podporované formáty dat 1 GB nekomprimované Ve frontě, streamování, přímé Psaní vlastního kódu podle potřeb organizace Programový příjem dat je optimalizovaný pro snížení nákladů na příjem dat díky minimalizaci transakcí úložiště během procesu příjmu dat a jeho sledování.
LightIngest Podporované formáty dat 1 GB nekomprimované Fronta nebo přímý příjem dat Migrace dat, historická data s upravenými časovými razítky příjmu dat, hromadný příjem dat Rozlišují se malá a velká písmena a mezery
Logic Apps Podporované formáty dat 1 GB nekomprimované Ve frontě Používá se k automatizaci kanálů.
LogStash JSON Neomezené. Dědí omezení Javy. Ve frontě Existující kanál, použijte vyspělou, open source povahu Logstash pro vysoké objemy spotřeby ze vstupů. Předvolba může být určena stávajícím použitím více výrobců nebo spotřebitelských služeb nebo požadovanou úrovní správy služeb.
Power Automate Podporované formáty dat 1 GB nekomprimované Ve frontě Příkazy pro příjem dat jako součást toku Používá se k automatizaci kanálů.

Informace o dalších konektorech najdete v tématu Přehled konektorů.

Oprávnění

Následující seznam popisuje oprávnění požadovaná pro různé scénáře příjmu dat:

  • Vytvoření nové tabulky vyžaduje alespoň oprávnění uživatele databáze.
  • Ingestování dat do existující tabulky beze změny jejího schématu vyžaduje alespoň oprávnění Databázového ingestora.
  • Změna schématu existující tabulky vyžaduje alespoň oprávnění Správa tabulky nebo Správa databáze.

Další informace najdete v tématu Řízení přístupu na základě role v Kusto.

Proces příjmu dat

Následující kroky popisují obecný proces příjmu dat:

  1. Nastavení zásad dávkování (volitelné):Data se sesouvkují na základě zásad dávkování příjmu dat. Doprovodné materiály najdete v tématu Optimalizace propustnosti.

  2. Nastavení zásad uchovávání informací (volitelné): Pokud zásady uchovávání informací databáze nejsou vhodné pro vaše potřeby, přepište je na úrovni tabulky. Další informace najdete v tématu Zásady uchovávání informací.

  3. Vytvoření tabulky: Pokud používáte prostředí Získat data, můžete tabulku vytvořit jako součást toku příjmu dat. V opačném případě vytvořte tabulku před příjmem dat ve webovém uživatelském rozhraní Azure Data Explorer nebo pomocí příkazu .create table.

  4. Vytvoření mapování schématu: Mapování schémat pomáhá svázat zdrojová datová pole se sloupci cílové tabulky. Podporují se různé typy mapování, včetně formátů orientovaných na řádky, jako jsou CSV, JSON a AVRO, a formátů orientovaných na sloupce, jako je Parquet. U většiny metod lze mapování také předem vytvořit v tabulce.

  5. Nastavení zásad aktualizace (volitelné):Některé formáty dat, jako jsou Parquet, JSON a Avro, umožňují jednoduché transformace při ingestaci. Pro složitější zpracování během příjmu dat použijte zásady aktualizace. Tato zásada automaticky provádí extrakce a transformace na přijatých datech v původní tabulce a poté ingestuje upravená data do jedné nebo více cílových tabulek.

  6. Ingestování dat: K přenesení dat použijte upřednostňovaný nástroj pro příjem dat, konektor nebo metodu.