Události
31. 3. 23 - 2. 4. 23
Největší událost učení Fabric, Power BI a SQL. 31. března – 2. dubna. Pomocí kódu FABINSIDER uložte $400.
Zaregistrovat se ještě dnesTento prohlížeč se už nepodporuje.
Upgradujte na Microsoft Edge, abyste mohli využívat nejnovější funkce, aktualizace zabezpečení a technickou podporu.
Tento článek ukazuje, jak přidat lakehouse jako cíl do streamu událostí v Microsoft Fabric. Pokud chcete optimalizovat výkon streamování a dotazování v reálném čase, zvažte streamování dat do eventhouse s přidáním cíle eventhouse do eventstreamu a pak povolte dostupnost Eventhouse OneLake.
Poznámka
Vylepšené funkce jsou ve výchozím nastavení povolené při vytváření eventstreamů. Pokud máte streamy událostí vytvořené pomocí standardních funkcí, budou tyto streamy událostí dál fungovat. Pořád je můžete upravovat a používat jako obvykle. Doporučujeme vytvořit nový stream událostí, který nahradí standardní streamy událostí, abyste mohli využívat další možnosti a výhody rozšířených streamů událostí.
Důležité
Existuje vynucení schématu pro zápis dat do cílové tabulky lakehouse. Všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.
Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Všechny záznamy výstupních dat se promítnou do schématu existující tabulky.
Pokud příchozí data mají sloupce, které nejsou ve stávajícím schématu tabulky, nezahrnou se do dat zapsaných do tabulky. Podobně platí, že pokud příchozí data chybí sloupce, které jsou ve stávajícím schématu tabulky, chybějící sloupce se zapisují do tabulky s hodnotami nastavenými na hodnotu null.
Poznámka
Maximální počet zdrojů a cílů pro jeden stream událostí je 11.
Pokud chcete přidat cíl lakehouse do výchozího nebo odvozeného streamu událostí, postupujte takto.
V režimu úprav pro váš eventstream vyberte Přidat cíl na pásu karet a v rozevíracím seznamu vyberte Lakehouse .
Připojte uzel lakehouse k uzlu nebo operátoru streamu.
Na konfigurační obrazovce Lakehouse vyplňte následující informace:
Vyberte Upřesnit.
Pro lakehouse destinaci jsou k dispozici dva režimy příjmu dat. Na základě vašeho scénáře nakonfigurujte tyto režimy tak, aby optimalizovaly zápis streamů událostí systému Fabric do lakehouse.
Minimální počet řádků je minimální počet řádků, které ingestuje lakehouse v jednom souboru. Minimum je 1 řádek a maximum je 2 miliony řádků na soubor. Čím menší je minimální počet řádků, tím více souborů lakehouse vytvoří během příjmu dat.
Maximální doba trvání je maximální doba trvání, kterou jezero trvá na ingestování jednoho souboru. Minimum je 1 minuta a maximum je 2 hodiny. Čím delší je doba trvání, tím více řádků se v souboru ingestuje.
Zvolte Uložit.
Pokud chcete implementovat nově přidaný cíl lakehouse, vyberte Publikovat.
Po dokončení těchto kroků je cíl jezera pro vizualizaci v živém zobrazení k dispozici. V podokně Podrobností můžete vybrat tabulku Optimalizace v zástupce poznámkového bloku a spustit úlohu Apache Sparku v poznámkovém bloku, která slučuje malé streamovací soubory v cílové tabulce lakehouse.
Poznámka
Při konfiguraci eventstreamu se zdroj, logika transformace a cíl obvykle sčítají dohromady. Ve výchozím nastavení při publikování eventstreamu začínají back-endové služby pro příjem dat a směrování dat s a. Příjem dat ale může začínat rychleji než směrování dat, což způsobí, že se některá data ingestují do eventstreamu, než se směrování plně inicializuje. V důsledku toho nemusí být tato data směrována do cíle.
Běžným příkladem je zdroj CDC databáze, kde data počátečního snímku můžou zůstat v eventstreamu, aniž by byla směrována do cíle.
Pokud chcete tento problém zmírnit, postupujte takto:
Při konfiguraci Eventhouse (zpracování událostí před příjmem dat) nebo destinace Lakehouse zrušte zaškrtnutí políčka Aktivovat příjem dat po přidání zdroje dat.
Po publikování eventstreamu ručně aktivujte příjem dat.
Pomocí možnosti Vlastní čas zvolte dřívější časové razítko pro zajištění správného zpracování a směrování počátečních dat.
Další informace najdete v tématu Pozastavení a obnovení datových proudů
Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích:
Než začnete, musíte splnit následující požadavky:
Poznámka
Maximální počet zdrojů a cílů pro jeden stream událostí je 11.
Pokud máte v pracovním prostoru vytvořený lakehouse, přidejte ho do svého eventstreamu jako cíl pomocí následujícího postupu:
Na pásu karet vyberte Nový cíl nebo "+" na plátně hlavního editoru a pak vyberte Lakehouse. Na obrazovce se objeví konfigurace cíle Lakehouse.
Zadejte název cíle eventstreamu a vyplňte informace o svém jezeře.
Lakehouse: V zadaném pracovním prostoru vyberte existující jezero.
Delta tabulka: Vyberte existující delta tabulku nebo vytvořte novou tabulku pro příjem dat.
Poznámka
Při zápisu dat do tabulky lakehouse dochází k vynucování schématu. To znamená, že všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.
Všechny záznamy výstupních dat se promítnou do schématu existující tabulky. Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Pokud příchozí data mají v porovnání se stávajícím schématem tabulky další sloupec, zapíše se do tabulky bez zahrnutí sloupce navíc. Pokud naopak v příchozích datech chybí sloupec ve srovnání s existujícím schématem tabulky, zapíše se do tabulky s hodnotou sloupce nastavenou na hodnotu null.
Formát vstupních dat: Vyberte formát pro data (vstupní data), která se odesílají do jezera.
Poznámka
Podporované formáty vstupních dat událostí jsou JSON, Avro a CSV (s hlavičkou).
Zpracování událostí: Pomocí editoru zpracování událostí můžete určit, jak se mají data zpracovávat před odesláním do jezera. Výběrem Otevřít procesor událostí otevřete editor zpracování událostí. Další informace o zpracování v reálném čase pomocí procesoru událostí najdete v tématu Zpracování dat událostí pomocí editoru procesoru událostí. Až budete s editorem hotovi, vyberte Hotovo a vraťte se na obrazovku konfigurace cíle Lakehouse .
Pro cílový lakehouse jsou k dispozici dva režimy příjmu dat. Vyberte jeden z těchto režimů, abyste optimalizovali způsob, jakým funkce pro streamování událostí Fabric zapisuje do lakehouse v závislosti na vašem scénáři.
Řádky na soubor – minimální počet řádků, které Lakehouse ingestuje v jednom souboru. Čím menší je minimální počet řádků, tím více souborů Lakehouse vytvoří během příjmu dat. Minimum je 1 řádek. Maximum je 2M řádků na soubor.
Doba trvání – Maximální doba trvání, kterou by Lakehouse potřeboval k ingestování jednoho souboru. Čím delší je doba trvání, tím více řádků se načítá do souboru. Minimum je 1 minuta a maximum je 2 hodiny.
Vyberte Přidat pro přidání cíle lakehouse.
Zástupce optimalizace tabulky dostupný uvnitř cílového lakehouse. Toto řešení vám usnadní spuštění úlohy Sparku v poznámkovém bloku, které slučuje tyto malé streamovací soubory v cílové tabulce Lakehouse.
Cíl jezerního domu se zobrazí na plátně s otáčejícím se indikátorem stavu. Změna stavu na Aktivní trvá několik minut.
Upravit nebo odebrat: Cíl streamu událostí můžete upravit nebo odebrat buď prostřednictvím navigačního podokna, nebo plátna.
Když vyberete Upravit, otevře se podokno úprav na pravé straně hlavního editoru. Konfiguraci můžete upravit podle potřeby, včetně logiky transformace událostí prostřednictvím editoru procesoru událostí.
Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích:
Události
31. 3. 23 - 2. 4. 23
Největší událost učení Fabric, Power BI a SQL. 31. března – 2. dubna. Pomocí kódu FABINSIDER uložte $400.
Zaregistrovat se ještě dnesŠkolení
Certifikace
Microsoft Certified: Datový inženýr Fabric Associate - Certifications
Jako datový inženýr infrastruktury byste měli mít zkušenosti se vzory načítání dat, architekturami dat a procesy orchestrace.
Dokumentace
Streamování dat do lakehouse - Microsoft Fabric
Naučte se používat strukturované streamování Sparku a zásady opakování k nastavení úloh streamování pro získání dat do lakehouse.
Získání dat z eventstreamu ve více položkách infrastruktury - Microsoft Fabric
Tento článek popisuje, jak získat data z eventstreamu uvnitř jiných položek infrastruktury.
Začínáme se streamováním dat v lakehouse - Microsoft Fabric
Zjistěte, jak pomocí definice úlohy Apache Spark streamovat data do lakehouse a pak je obsluhovat prostřednictvím koncového bodu analýzy SQL.