Terminologie Microsoft Fabric

Seznamte se s definicemi termínů používaných v Microsoft Fabric, včetně termínů specifických pro Datový sklad Synapse, Synapse Datoví technici ing, Synapse Datová Věda, Synapse Real-Time Analytics, Data Factory a Power BI.

Obecné výrazy

  • Kapacita: Kapacita je vyhrazená sada prostředků, které jsou k dispozici v daném okamžiku, které se mají použít. Kapacita definuje schopnost prostředku provádět aktivitu nebo vytvářet výstup. Různé položky spotřebovávají v určitém okamžiku jinou kapacitu. Prostředky infrastruktury nabízejí kapacitu prostřednictvím skladové položky Fabric a zkušební verze. Další informace najdete v tématu Co je kapacita?

  • Zkušenosti: Kolekce funkcí cílených na konkrétní funkce. Mezi prostředí infrastruktury patří Datový sklad Synapse, Synapse Datoví technici ing, Synapse Datová Věda, Synapse Real-Time Analytics, Data Factory a Power BI.

  • Položka: Položka, která je sadou funkcí v rámci prostředí. Uživatelé můžou vytvářet, upravovat a odstraňovat. Každý typ položky poskytuje různé možnosti. Prostředí Datoví technici zahrnuje například položky definice úlohy Lakehouse, poznámkového bloku a Sparku.

  • Tenant: Tenant je jedna instance prostředků infrastruktury pro organizaci a je v souladu s ID Microsoft Entra.

  • Pracovní prostor: Pracovní prostor je kolekce položek, která spojuje různé funkce v jednom prostředí navrženém pro spolupráci. Funguje jako kontejner, který používá kapacitu pro práci, která se provádí, a poskytuje ovládací prvky pro to, kdo má přístup k položkám v něm. Například v pracovním prostoru uživatelé vytvářejí sestavy, poznámkové bloky, sémantické modely atd. Další informace najdete v článku Pracovní prostory .

Příprava dat Synapse

  • Lakehouse: Lakehouse je kolekce souborů, složek a tabulek, které představují databázi přes datové jezero používané modulem Apache Spark a modulem SQL pro zpracování velkých objemů dat. Lakehouse zahrnuje vylepšené funkce pro transakce ACID při použití opensourcových tabulek s formátem Delta. Položka lakehouse je hostovaná v rámci jedinečné složky pracovního prostoru v Microsoft OneLake. Obsahuje soubory v různých formátech (strukturovaných a nestrukturovaných) uspořádaných do složek a podsložek. Další informace najdete v tématu Co je jezero?

  • Poznámkový blok: Poznámkový blok Fabric je multijazyčný interaktivní programovací nástroj s bohatými funkcemi. Patří sem vytváření kódu a markdownu, spouštění a monitorování úlohy Sparku, zobrazení a vizualizace výsledků a spolupráce s týmem. Pomáhá datovým inženýrům a datovým vědcům zkoumat a zpracovávat data a vytvářet experimenty strojového učení s kódem i prostředím s nízkým kódem. Dá se snadno transformovat na aktivitu kanálu pro orchestraci.

  • Aplikace Spark: Aplikace Apache Spark je program napsaný uživatelem pomocí jednoho z jazyků rozhraní API Sparku (Scala, Python, Spark SQL nebo Java) nebo jazyků s přidanými Microsoftem (.NET s C# nebo F#). Když se aplikace spustí, rozdělí se do jedné nebo několika úloh Sparku, které běží paralelně a zpracovávají data rychleji. Další informace najdete v tématu Monitorování aplikací Spark.

  • Úloha Apache Spark: Úloha Sparku je součástí aplikace Spark, která běží paralelně s jinými úlohami v aplikaci. Úloha se skládá z více úkolů. Další informace najdete v tématu Monitorování úloh Sparku.

  • Definice úlohy Apache Spark: Definice úlohy Sparku je sada parametrů nastavená uživatelem, která označuje, jak se má aplikace Spark spustit. Umožňuje odesílat dávkové nebo streamované úlohy do clusteru Spark. Další informace najdete v tématu Co je definice úlohy Apache Spark?

  • V-order: Optimalizace zápisu do formátu souboru parquet, která umožňuje rychlé čtení a poskytuje nákladovou efektivitu a lepší výkon. Všechny moduly Fabric ve výchozím nastavení zapisují soubory parquet v objednaných v.

Data Factory

  • Připojení or: Data Factory nabízí bohatou sadu konektorů, které umožňují připojení k různým typům úložišť dat. Po připojení můžete data transformovat. Další informace najdete v konektorech.

  • Datový kanál: Ve službě Data Factory se datový kanál používá k orchestraci přesunu a transformace dat. Tyto kanály se liší od kanálů nasazení v prostředcích infrastruktury. Další informace najdete v tématu Kanály v přehledu služby Data Factory.

  • Tok dat Gen2: Toky dat poskytují rozhraní s nízkým kódem pro příjem dat ze stovek zdrojů dat a transformaci dat. Toky dat v prostředcích infrastruktury se označují jako Tok dat Gen2. Tok dat Gen1 existuje v Power BI. Tok dat Gen2 nabízí další funkce v porovnání s toky dat ve službě Azure Data Factory nebo Power BI. Z Gen1 na Gen2 nejde upgradovat. Další informace najdete v tématu Toky dat v přehledu služby Data Factory.

Datové vědy Synapse

  • Data Wrangler: Data Wrangler je nástroj založený na poznámkových blocích, který uživatelům poskytuje imerzivní prostředí pro provádění průzkumné analýzy dat. Tato funkce kombinuje zobrazení dat podobné mřížce s dynamickými souhrnnými statistikami a sadou běžných operací čištění dat, které jsou k dispozici s několika vybranými ikonami. Každá operace generuje kód, který lze uložit zpět do poznámkového bloku jako opakovaně použitelný skript.

  • Experiment: Experiment strojového učení je primární jednotkou organizace a řízením pro všechna související spuštění strojového učení. Další informace najdete v tématu Experimenty strojového učení v Microsoft Fabric.

  • Model: Model strojového učení je soubor natrénovaný tak, aby rozpoznal určité typy vzorů. Model vytrénujete přes sadu dat a poskytnete mu algoritmus, který používá k odůvodnění a učení se z této datové sady. Další informace najdete v tématu Model strojového učení.

  • Spuštění: Spuštění odpovídá jedinému spuštění kódu modelu. V MLflow je sledování založené na experimentech a spuštěních.

Datový sklad Synapse

  • Koncový bod analýzy SQL: Každý lakehouse má koncový bod analýzy SQL, který uživateli umožňuje dotazovat rozdílová data tabulek pomocí TSQL přes TDS. Další informace najdete v tématu Koncový bod analýzy SQL.

  • Synapse Data Warehouse: Datový sklad Synapse funguje jako tradiční datový sklad a podporuje úplné transakční funkce T-SQL, které byste očekávali od podnikového datového skladu. Další informace najdete v tématu Synapse Data Warehouse.

Analýzy Synapse v reálném čase

  • Databáze KQL: Databáze KQL obsahuje data ve formátu, na který můžete spouštět dotazy KQL. Další informace naleznete v tématu Dotazování databáze KQL.

  • Sada dotazů KQL: Sada dotazů KQL je položka použitá ke spouštění dotazů, zobrazení výsledků a manipulaci s výsledky dotazů na data z databáze Průzkumníka dat. Sada dotazů zahrnuje databáze a tabulky, dotazy a výsledky. Sada dotazů KQL umožňuje ukládat dotazy pro budoucí použití nebo exportovat a sdílet dotazy s ostatními. Další informace naleznete v tématu Dotazování dat v KQL Queryset

  • Stream událostí: Funkce Streamy událostí Microsoft Fabric poskytuje centralizované místo na platformě Fabric pro zachycení, transformaci a směrování událostí v reálném čase do cílů s prostředím bez kódu. Stream událostí se skládá z různých streamovaných zdrojů dat, cílů příjmu dat a procesoru událostí v případě potřeby transformace. Další informace najdete v tématu Streamy událostí Microsoft Fabric.

OneLake

  • Zkratka: Klávesové zkratky jsou vložené odkazy do OneLake, které odkazují na jiná umístění úložiště souborů. Poskytují způsob, jak se připojit k existujícím datům, aniž by je museli přímo kopírovat. Další informace najdete v tématu Klávesové zkratky OneLake.