Zkoumání a transformace dat v jezeře

Dokončeno

Po načtení dat do jezera můžete pomocí různých nástrojů a technik prozkoumat a transformovat je, včetně:

  • Apache Spark: Každý fabric lakehouse může používat fondy Sparku prostřednictvím poznámkových bloků nebo definic úloh Sparku ke zpracování dat v souborech a tabulkách v jezeře pomocí Scala, PySpark nebo Spark SQL.

    • Poznámkové bloky: Interaktivní kódovací rozhraní, ve kterých můžete pomocí kódu číst, transformovat a zapisovat data přímo do jezera jako tabulky nebo soubory.

    • Definice úloh Sparku: Skripty na vyžádání nebo naplánované skripty, které používají modul Spark ke zpracování dat v lakehouse.

  • Analytický koncový bod SQL: Každý lakehouse obsahuje analytický koncový bod SQL, prostřednictvím kterého můžete spouštět příkazy Jazyka Transact-SQL pro dotazování, filtrování, agregaci a další zkoumání dat v tabulkách lakehouse.

  • Toky dat (Gen2):: Kromě použití toku dat k ingestování dat do jezera můžete vytvořit tok dat, který provede následné transformace prostřednictvím Power Query a volitelně transformuje data zpět do Lakehouse.

  • Datové kanály: Orchestrace komplexní logiky transformace dat, která pracuje s daty v jezeře, prostřednictvím posloupnosti aktivit (jako jsou toky dat, úlohy Sparku a další logika toku řízení).

Analýza a vizualizace dat v jezeře

Data v tabulkách lakehouse jsou součástí sémantického modelu, který definuje relační model pro vaše data. Tento sémantický model (nebo můžete vytvořit jiné sémantické modely), definovat vlastní míry, hierarchie, agregace a další prvky sémantického modelu. Pak můžete jako zdroj sestavy Power BI použít sémantický model, který umožňuje vizualizovat a analyzovat data.

Kombinací možností vizualizace dat v Power BI s centralizovaným úložištěm a tabulkovým schématem datového jezerahouse můžete implementovat komplexní analytické řešení na jedné platformě.