Přidejte lakehouse jako cíl do eventstreamu

Volba možností eventstreamů

Tento článek ukazuje, jak přidat lakehouse jako cíl do streamu událostí v Microsoft Fabric. Pokud chcete optimalizovat výkon streamování a dotazování v reálném čase, zvažte streamování dat do eventhouse s přidáním cíle eventhouse do eventstreamu a pak povolte dostupnost Eventhouse OneLake.

Poznámka

Vylepšené funkce jsou ve výchozím nastavení povolené při vytváření eventstreamů. Pokud máte streamy událostí vytvořené pomocí standardních funkcí, budou tyto streamy událostí dál fungovat. Pořád je můžete upravovat a používat jako obvykle. Doporučujeme vytvořit nový stream událostí, který nahradí standardní streamy událostí, abyste mohli využívat další možnosti a výhody rozšířených streamů událostí.

Důležité

Existuje vynucení schématu pro zápis dat do cílové tabulky lakehouse. Všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.

Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Všechny záznamy výstupních dat se promítnou do schématu existující tabulky.

Pokud příchozí data mají sloupce, které nejsou ve stávajícím schématu tabulky, nezahrnou se do dat zapsaných do tabulky. Podobně platí, že pokud příchozí data chybí sloupce, které jsou ve stávajícím schématu tabulky, chybějící sloupce se zapisují do tabulky s hodnotami nastavenými na hodnotu null.

Požadavky

  • Přístup k pracovnímu prostoru s oprávněními Přispěvatel nebo vyšší v režimu kapacitní licence Fabric nebo zkušební licence.
  • Přístup k pracovnímu prostoru, ve kterém se nachází váš lakehouse s oprávněními Přispěvatel nebo vyšší.

Poznámka

Maximální počet zdrojů a cílů pro jeden stream událostí je 11.

Přidat dům u jezera jako cíl

Pokud chcete přidat cíl lakehouse do výchozího nebo odvozeného streamu událostí, postupujte takto.

  1. V režimu úprav pro váš eventstream vyberte Přidat cíl na pásu karet a v rozevíracím seznamu vyberte Lakehouse .

    Snímek obrazovky rozevíracího seznamu Přidat cíl se zvýrazněným Lakehouse

  2. Připojte uzel lakehouse k uzlu nebo operátoru streamu.

  3. Na konfigurační obrazovce Lakehouse vyplňte následující informace:

    1. Zadejte název cíle.
    2. Vyberte pracovní prostor, který obsahuje váš jezerní dům.
    3. Ve zvoleném pracovním prostoru vyberte existující Lakehouse.
    4. Vyberte existující tabulku Delta nebo vytvořte novou tabulku pro příjem dat.
    5. Vyberte formát vstupních dat, který je odesílán do vašeho lakehouse. Podporované formáty dat jsou JSON, Avro a CSV (s hlavičkou).

    Snímek obrazovky s horní částí konfigurační obrazovky Lakehouse

  4. Vyberte Upřesnit.

  5. Pro lakehouse destinaci jsou k dispozici dva režimy příjmu dat. Na základě vašeho scénáře nakonfigurujte tyto režimy tak, aby optimalizovaly zápis streamů událostí systému Fabric do lakehouse.

    • Minimální počet řádků je minimální počet řádků, které ingestuje lakehouse v jednom souboru. Minimum je 1 řádek a maximum je 2 miliony řádků na soubor. Čím menší je minimální počet řádků, tím více souborů lakehouse vytvoří během příjmu dat.

    • Maximální doba trvání je maximální doba trvání, kterou jezero trvá na ingestování jednoho souboru. Minimum je 1 minuta a maximum je 2 hodiny. Čím delší je doba trvání, tím více řádků se v souboru ingestuje.

    Snímek obrazovky sekce Upřesnění na konfigurační obrazovce Lakehouse.

  6. Zvolte Uložit.

  7. Pokud chcete implementovat nově přidaný cíl lakehouse, vyberte Publikovat.

    Snímek obrazovky s cílem streamu a jezera v režimu úprav a zvýrazněným tlačítkem Publikovat

Po dokončení těchto kroků je cíl jezera pro vizualizaci v živém zobrazení k dispozici. V podokně Podrobností můžete vybrat tabulku Optimalizace v zástupce poznámkového bloku a spustit úlohu Apache Sparku v poznámkovém bloku, která slučuje malé streamovací soubory v cílové tabulce lakehouse.

Snímek obrazovky s cílovým objektem lakehouse a tlačítkem optimalizace tabulky v živém režimu zobrazení.

Poznámka

Při konfiguraci eventstreamu se zdroj, logika transformace a cíl obvykle sčítají dohromady. Ve výchozím nastavení při publikování eventstreamu začínají back-endové služby pro příjem dat a směrování dat s a. Příjem dat ale může začínat rychleji než směrování dat, což způsobí, že se některá data ingestují do eventstreamu, než se směrování plně inicializuje. V důsledku toho nemusí být tato data směrována do cíle.

Běžným příkladem je zdroj CDC databáze, kde data počátečního snímku můžou zůstat v eventstreamu, aniž by byla směrována do cíle.

Pokud chcete tento problém zmírnit, postupujte takto:

  1. Při konfiguraci Eventhouse (zpracování událostí před příjmem dat) nebo destinace Lakehouse zrušte zaškrtnutí políčka Aktivovat příjem dat po přidání zdroje dat.

    snímek obrazovky databáze KQL bez výběru Aktivace ingestování po přidání zdroje dat.

  2. Po publikování eventstreamu ručně aktivujte příjem dat.

  3. Pomocí možnosti Vlastní čas zvolte dřívější časové razítko pro zajištění správného zpracování a směrování počátečních dat.

snímek obrazovky zachycující obnovení cíle Lakehouse. Další informace najdete v tématu Pozastavení a obnovení datových proudů

Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích:

Požadavky

Než začnete, musíte splnit následující požadavky:

  • Přístup k pracovnímu prostoru v režimu licence kapacity Fabric nebo v zkušebním režimu licence s oprávněními přispěvatel nebo vyšší.
  • Získejte přístup k pracovnímu prostoru s oprávněními Přispěvatel nebo vyšší, kde se nachází váš lakehouse.

Poznámka

Maximální počet zdrojů a cílů pro jeden stream událostí je 11.

Přidejte lakehouse jako destinaci

Pokud máte v pracovním prostoru vytvořený lakehouse, přidejte ho do svého eventstreamu jako cíl pomocí následujícího postupu:

  1. Na pásu karet vyberte Nový cíl nebo "+" na plátně hlavního editoru a pak vyberte Lakehouse. Na obrazovce se objeví konfigurace cíle Lakehouse.

  2. Zadejte název cíle eventstreamu a vyplňte informace o svém jezeře.

    Snímek obrazovky obrazovky konfigurace cílové destinace Lakehouse.

    1. Lakehouse: V zadaném pracovním prostoru vyberte existující jezero.

    2. Delta tabulka: Vyberte existující delta tabulku nebo vytvořte novou tabulku pro příjem dat.

      Poznámka

      Při zápisu dat do tabulky lakehouse dochází k vynucování schématu. To znamená, že všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.

      Všechny záznamy výstupních dat se promítnou do schématu existující tabulky. Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Pokud příchozí data mají v porovnání se stávajícím schématem tabulky další sloupec, zapíše se do tabulky bez zahrnutí sloupce navíc. Pokud naopak v příchozích datech chybí sloupec ve srovnání s existujícím schématem tabulky, zapíše se do tabulky s hodnotou sloupce nastavenou na hodnotu null.

    3. Formát vstupních dat: Vyberte formát pro data (vstupní data), která se odesílají do jezera.

      Poznámka

      Podporované formáty vstupních dat událostí jsou JSON, Avro a CSV (s hlavičkou).

    4. Zpracování událostí: Pomocí editoru zpracování událostí můžete určit, jak se mají data zpracovávat před odesláním do jezera. Výběrem Otevřít procesor událostí otevřete editor zpracování událostí. Další informace o zpracování v reálném čase pomocí procesoru událostí najdete v tématu Zpracování dat událostí pomocí editoru procesoru událostí. Až budete s editorem hotovi, vyberte Hotovo a vraťte se na obrazovku konfigurace cíle Lakehouse .

      Snímek obrazovky s editorem procesoru událostí

  3. Pro cílový lakehouse jsou k dispozici dva režimy příjmu dat. Vyberte jeden z těchto režimů, abyste optimalizovali způsob, jakým funkce pro streamování událostí Fabric zapisuje do lakehouse v závislosti na vašem scénáři.

    1. Řádky na soubor – minimální počet řádků, které Lakehouse ingestuje v jednom souboru. Čím menší je minimální počet řádků, tím více souborů Lakehouse vytvoří během příjmu dat. Minimum je 1 řádek. Maximum je 2M řádků na soubor.

    2. Doba trvání – Maximální doba trvání, kterou by Lakehouse potřeboval k ingestování jednoho souboru. Čím delší je doba trvání, tím více řádků se načítá do souboru. Minimum je 1 minuta a maximum je 2 hodiny.

      Snímek obrazovky znázorňující režimy příjmu dat

  4. Vyberte Přidat pro přidání cíle lakehouse.

  5. Zástupce optimalizace tabulky dostupný uvnitř cílového lakehouse. Toto řešení vám usnadní spuštění úlohy Sparku v poznámkovém bloku, které slučuje tyto malé streamovací soubory v cílové tabulce Lakehouse.

    Snímek obrazovky s nastavením optimalizace tabulky

  6. Cíl jezerního domu se zobrazí na plátně s otáčejícím se indikátorem stavu. Změna stavu na Aktivní trvá několik minut.

    Snímek obrazovky znázorňující destinaci dům u jezera.

Správa cíle

Upravit nebo odebrat: Cíl streamu událostí můžete upravit nebo odebrat buď prostřednictvím navigačního podokna, nebo plátna.

Když vyberete Upravit, otevře se podokno úprav na pravé straně hlavního editoru. Konfiguraci můžete upravit podle potřeby, včetně logiky transformace událostí prostřednictvím editoru procesoru událostí.

Snímek obrazovky znázorňující, kde vybrat možnosti úpravy a odstranění cílů na plátně

Související obsah

Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích: