Zdieľať cez


Terminológia služby Microsoft Fabric

Oboznámte sa s definíciami výrazov používaných v službe Microsoft Fabric vrátane výrazov špecifických pre Sklad údajov Synapse, Synapse Dátový inžinier ing, synapse Data Science, v reálnom čase na inteligenciu, data factory a Power BI.

Všeobecné pojmy

  • Kapacita: Kapacita je vyhradená množina zdrojov, ktorá je k dispozícii v danom čase na použitie. Kapacita definuje schopnosť zdroja vykonať aktivitu alebo vytvoriť výstup. Rôzne položky používajú inú kapacitu v určitom čase. Fabric ponúka kapacitu prostredníctvom skladovej jednotky SKU a skúšok služby Fabric. Ďalšie informácie nájdete v téme Čo je kapacita?

  • Skúsenosti: Kolekcia možností zameraných na konkrétne funkcie. Medzi skúsenosti s tkaninami patria Synapse Data Warehouse, Synapse Dátový inžinier ing, Synapse Data Science, Real-Time Intelligence, Data Factory a Power BI.

  • Položka: položka množina možností v rámci prostredia. Používatelia ich môžu vytvárať, upravovať a odstraňovať. Každý typ položky poskytuje rôzne možnosti. Prostredie Dátový inžinier napríklad zahŕňa položky lakehouse, notebook a spark job definition.

  • Nájomník: nájomník je jedinou inštanciou služby Fabric pre organizáciu a je zladený s ID služby Microsoft Entra.

  • Pracovný priestor: pracovný priestor je kolekcia položiek, ktorá spája rôzne funkcie v jednom prostredí navrhnutom na spoluprácu. Funguje ako kontajner, ktorý používa kapacitu na prácu, ktorá sa vykonáva, a poskytuje ovládacie prvky na získanie prístupu k položkám, ktoré sa v ňom nachádzajú. V pracovnom priestore môžu používatelia napríklad vytvárať zostavy, poznámkové bloky, sémantické modely atď. Ďalšie informácie nájdete v článku o pracovných priestoroch .

Synapse – dátové inžinierstvo

  • Lakehouse: Lakehouse je kolekcia súborov, priečinkov a tabuliek, ktoré predstavujú databázu cez dátové jazero používané nástrojom Apache Spark a nástrojom SQL na spracovanie veľkého objemu údajov. Lakehouse obsahuje vylepšené možnosti pre transakcie ACID pri použití open-source delta formátovaných tabuliek. Položka lakehouse je hosťovaná v rámci jedinečného priečinka pracovného priestoru v službe Microsoft OneLake. Obsahuje súbory v rôznych formátoch (štruktúrovaných aj neštruktúrovaných) usporiadaných v priečinkoch a podpriečinkoch. Ďalšie informácie nájdete v téme Čo je lakehouse?

  • Notebook: Poznámkový blok služby Fabric je multijazyčný interaktívny programovací nástroj s bohatými funkciami. Zahŕňa tvorbu kódu a jazyk Markdown, spustenie a monitorovanie úlohy v službe Spark, zobrazenie a vizualizáciu výsledku a spoluprácu s tímom. Pomáha dátovým inžinierom a dátovému vedcom skúmať a spracovávať údaje a vytvárať experimenty v strojovom učení s kódom aj prostredím s minimálnym použitím kódu. Na účely zosúlaďovania sa dá jednoducho transformovať na aktivitu kanála.

  • Aplikácia Spark: Aplikácia Apache Spark je program napísaný používateľom pomocou niektorého z jazykov rozhrania API služby Spark (Scala, Python, Spark SQL alebo Java) alebo jazykov pridaných spoločnosťou Microsoft (.NET s jazykmi C# alebo F#). Pri spustení aplikácie sa rozdelí na jednu alebo viacero úloh Služby Spark, ktoré sú spustené paralelne, aby sa údaje spracovali rýchlejšie. Ďalšie informácie nájdete v téme Monitorovanie aplikácií služby Spark.

  • Úloha Apache Spark: Úloha Spark je súčasťou aplikácie Spark, ktorá prebieha paralelne s ostatnými úlohami v aplikácii. Úloha pozostáva z viacerých úloh. Ďalšie informácie nájdete v téme Monitorovanie úloh v službe Spark.

  • Definícia úlohy v službe Apache Spark: Definícia úlohy Spark je množina parametrov, ktorú nastavil používateľ a ktorá označuje, ako sa má spustiť aplikácia Spark. Umožňuje odoslať dávkové alebo streamovacie úlohy do klastra Spark. Ďalšie informácie nájdete v téme Čo je definícia úlohy v službe Apache Spark?

  • V-order: Optimalizácia zapisovania do formátu súboru parquet, ktorý umožňuje rýchle čítanie a poskytuje nákladovú efektivitu a lepší výkon. Všetky moduly fabricu predvolene píšu objednané parquet súbory.

Data Factory

  • Konektor: Data Factory ponúka bohatú množinu konektorov, ktoré vám umožnia pripojiť sa k rôznym typom úchyt údajov. Po pripojení môžete údaje transformovať. Ďalšie informácie nájdete v téme o konektoroch.

  • Kanál údajov: V službe Data Factory sa na koordinovanie premiestňovania a transformácie údajov používa kanál údajov. Tieto kanály sa líšia od kanálov nasadenia v službe Fabric. Ďalšie informácie nájdete v téme Kanály v prehľade o službe Data Factory.

  • Dataflow Gen2: Toky údajov poskytujú rozhranie s minimálnym použitím kódu navádzanie údajov zo stoviek zdrojov údajov a transformáciu údajov. Toky údajov v službe Fabric sa označujú ako Tok údajov Gen2. Tok údajov Gen1 existuje v službe Power BI. Tok údajov Gen2 ponúka navyše funkcie v porovnaní s tokmi údajov v službe Azure Data Factory alebo Power BI. Zo služby Gen1 na Gen2 nie je možné vykonať inováciu. Ďalšie informácie nájdete v téme Toky údajov v prehľade o službe Data Factory.

  • Spúšťač: Funkcia automatizácie v službe Data Factory, ktorá iniciuje kanály na základe konkrétnych podmienok, ako sú napríklad plány alebo dostupnosť údajov.

Synapse – dátová veda

  • Data Wrangler: Data Wrangler je notebookový nástroj, ktorý poskytuje používateľom nový zážitok pri vykonávaní prieskumných analýz údajov. Táto funkcia kombinuje zobrazenie údajov podobné mriežke s dynamickými súhrnnými štatistikami a množinou bežných operácií čistenia údajov, ktoré sú k dispozícii s niekoľkými vybratými ikonami. Každá operácia generuje kód, ktorý je možné uložiť späť do poznámkového bloku ako opätovne použiteľný skript.

  • Experiment: Experiment strojového učenia je primárnou jednotkou organizácie a kontroly pre všetky súvisiace spustenia strojového učenia. Ďalšie informácie nájdete v téme Experimenty strojového učenia v službe Microsoft Fabric.

  • Model: Model strojového učenia je súbor trénovaný na rozpoznávanie určitých typov vzorov. Model trénujete na množine údajov a poskytujete jej algoritmus, ktorý používa na dozor a učenie sa z tejto množiny údajov. Ďalšie informácie nájdete v téme Model strojového učenia.

  • Spustenie: Spustenie zodpovedá jednému vykonaniu kódu modelu. V toku MLflow je sledovanie založené na experimentoch a spusteniach.

Sklad údajov Synapse

  • Koncový bod analýzy SQL: Každý lakehouse má koncový bod analýzy SQL, ktorý umožňuje používateľovi dotazovať údaje delta tabuľky s TSQL cez TDS. Ďalšie informácie nájdete v téme Koncový bod analýzy SQL.

  • Sklad údajov Synapse: Sklad údajov Synapse funguje ako tradičný sklad údajov a podporuje úplné možnosti transakčného T-SQL, ktoré by ste očakávali od podnikového skladu údajov. Ďalšie informácie nájdete v téme Synapse Data Warehouse.

Inteligencia v reálnom čase

  • Databáza KQL: Databáza KQL obsahuje údaje vo formáte, ktorý môžete spúšťať dotazy KQL. Ďalšie informácie nájdete v téme Dotazovanie databázy KQL.

  • Množina dotazov KQL: Množina dotazov KQL je položka, ktorá sa používa na spúšťanie dotazov, zobrazovanie výsledkov a manipuláciu s výsledkami dotazov na údajoch z databázy Prieskumníka údajov. Množina dotazov obsahuje databázy a tabuľky, dotazy a výsledky. Množina dotazov KQL umožňuje ukladať dotazy na budúce použitie alebo exportovať a zdieľať dotazy s ostatnými. Ďalšie informácie nájdete v téme Údaje dotazu v množine dotazov kľúčového ukazovateľa výkonu.

  • Stream udalostí: Funkcia streamov udalostí služby Microsoft Fabric poskytuje centralizované miesto na platforme Fabric na zaznamenávanie, transformáciu a smerovanie udalostí v reálnom čase do cieľov bez použitia kódu. Stream udalostí pozostáva z rôznych zdrojov údajov streamovania, cieľov príjmu a procesora udalostí v prípade potreby transformácie. Ďalšie informácie nájdete v téme Streamy udalostí služby Microsoft Fabric.

OneLake

  • Skratka: Skratky sú vložené odkazy v rámci služby OneLake, ktoré odkazujú na iné umiestnenia úložiska súborov. Poskytujú spôsob, ako sa pripojiť k existujúcim údajom bez toho, aby ste ich museli priamo kopírovať. Ďalšie informácie nájdete v téme Skratky OneLake.