Sdílet prostřednictvím


Kompletní životní cyklus dat v Microsoft Fabric

Organizace se obvykle spoléhají na několik odpojených služeb k ingestování, ukládání, transformaci, analýze a vizualizaci dat. Tato fragmentace vytváří datová sila, zvyšuje náklady na integraci a zvyšuje dobu k dosažení přehlednosti. Microsoft Fabric tyto výzvy řeší sjednocením každé fáze životního cyklu dat do jedné platformy založené na sdíleném základu.

V centru této architektury je OneLake, jedno organizační datové jezero, které ukládá všechna data v otevřeném formátu Delta Parquet. OneLake je automaticky zřizována jako služba s každým tenantem Fabric. Vzhledem k tomu, že každá úloha Fabric čte a zapisuje do OneLake, data se nepřesouvají mezi enginy. Datová sada vložená datovým tokem, upravená v notebooku a vizualizovaná v sestavě Power BI zůstane na jednom místě během celého procesu.

Životní cyklus dat se skládá ze šesti fází a Fabric nabízí účelově vytvořené nástroje pro každou z těchto fází.

  • Získání dat: Přenesení dat do OneLake ze stovek zdrojů v reálném čase, podle plánu, prostřednictvím průběžné replikace databáze nebo odkazování na externí úložiště.

  • Ukládání dat: Uchování dat ve formátech úložiště optimalizovaných pro vaši úlohu, ať už jde o flexibilní analýzu velkých objemů dat, strukturované dotazy SQL, analýzu událostí v reálném čase, zpracování transakcí nebo řízení obchodních sestav.

  • Příprava a transformace: Vyčištění, přetvoření a obohacení dat pomocí vizuálních transformací s minimem kódu nebo poznámkových bloků s prioritou kódu a opakovaně použitelných funkcí, bez přesunu dat z OneLake.

  • Analýza a trénování: Sestavování a zprovoznění modelů strojového učení, spouštění pokročilých analýz, dotazování dat prostřednictvím kódu programu a zkoumání přehledů prostřednictvím agentů umělé inteligence v přirozeném jazyce

  • Sledování a vizualizace: Získejte znalosti pomocí interaktivních sestav, monitorujte živé datové proudy na panelech v reálném čase a spouštějte automatizované akce při splnění podmínek.

  • Externí integrace: Bezpečně se připojte k externím službám pro automatizaci, spolupráci, zásady správného řízení, nástroje pro vývojáře a CI/CD.

Následující diagram znázorňuje, jak se tyto fáze propojují a které položky infrastruktury se účastní v jednotlivých fázích. Každá fáze je podrobně popsána ve vyhrazeném článku. Pomocí odkazů v jednotlivých částech můžete prozkoumat možnosti a nástroje dostupné v této fázi.

Diagram znázorňující kompletní životní cyklus dat v Microsoft Fabric od příjmu dat přes úložiště, přípravu, analýzu a vizualizaci

Získání dat

Různé typy datových sad pocházejí z nejrůznějších zdrojů dat v různých scénářích dat, včetně replikace dat, odkazů na externí úložiště, dávkových datových sad a datových proudů v reálném čase. Tyto datové sady ingestujete a transformujete prostřednictvím integračních nástrojů Fabric. Data přistávají ve OneLake, centralizovaném úložišti dat pro celý Fabric. Mezi metody příjmu dat patří:

  • Eventstreamy pro příjem a směrování událostí v reálném čase
  • Datové kanály pro dávkové a plánované přesuny dat s více než 200 konektory.
  • Zrcadlení pro průběžnou replikaci z provozních databází bez vytváření kanálů ETL
  • Klávesové zkratky pro virtualizaci dat bez kopírování z externího úložiště, jako je Azure Data Lake, Amazon S3 nebo Google Cloud Storage.

Další informace najdete v tématu Získání dat do Microsoft Fabric.

Ukládání dat

Po ingestování se všechna data v OneLake zobrazí v otevřeném formátu Delta Parquet. OneLake poskytuje jedno datové jezero pro celou organizaci bez nutnosti samostatného zřizování. Fabric nabízí několik úložných prvků optimalizovaných pro různé pracovní zátěže:

  • Lakehouse pro flexibilní úložiště velkých objemů dat, které kombinuje soubory a spravované tabulky Delta s automatickým koncovým bodem SQL.
  • Datový sklad pro strukturované, relační analýzy s plnou podporou T-SQL, uloženými procedurami a ACID transakce.
  • Eventhouse pro analýzu streamovaných a telemetrických dat v reálném čase pomocí dotazovacího jazyka Kusto (KQL).
  • SQL Database pro transakční úlohy a provozní analýzy.
  • Sémantické modely pro kurátorskou obchodní logiku, metriky a hierarchie, které pohánějí reporty a AI.

Další informace najdete v tématu Ukládání dat v Microsoft Fabric.

Příprava a transformace dat

Jakmile budete ve OneLake, můžete data dále transformovat pomocí modulů typu code-first nebo nástrojů s nízkým kódem, a to vše v rámci infrastruktury bez přesunu dat mezi moduly:

  • Tok dat Gen2 nabízí rozhraní Power Query s nízkým počtem kódů pro čištění, transformaci a obohacení dat.
  • Poznámkové bloky nabízejí rozhraní podobné Jupyteru pro datové inženýrství využívající Python, T-SQL a Scalu.
  • Funkce uživatelských dat umožňují vložit opakovaně použitelnou vlastní logiku Pythonu, kterou je možné vyvolat z kanálů, poznámkových bloků a pravidel aktivátoru.

Další informace najdete v tématu Příprava a transformace dat.

Analýza dat a trénování modelů

Připravená data slouží k trénování modelů ML a provádění pokročilých analýz. Prostředí Datové vědy v rámci Fabric poskytuje možnost vytváření, trénování a implementace modelů ML:

  • Experimenty MLflow sledují trénování modelů pomocí automatického protokolování hyperparametrů, metrik a položek.
  • Modely ML jsou zaregistrované v registru MLflow pro správu verzí, sledování metadat a reprodukovatelnost.
  • Agenti dat a provozní agenti umožňují pracovat s daty pomocí přirozeného jazyka a pracovat s nalezenými podmínkami a vzory.
  • Rozhraní GraphQL API poskytují vývojářům flexibilní vrstvu přístupu k datům, prostřednictvím které mohou dotazovat více zdrojů dat Fabric skrze jeden koncový bod.
  • Copilot pro Power BI používá generování umělé inteligence pro ad hoc analýzu, generování DAX a zkoumání dat v přirozeném jazyce.

Další informace naleznete v tématu Analýza a trénování dat v Microsoft Fabric.

Sledování a vizualizace dat

Pomocí připravených a modelovaných dat můžete vytvářet sestavy, řídicí panely a výstrahy v reálném čase:

  • Sestavy Power BI poskytují interaktivní vizualizaci dat postavenou na sémantických modelech s distribucí v aplikacích Microsoftu 365, jako jsou Teams, SharePoint, PowerPoint a Excel.
  • Translytické toky úloh umožňují uživatelům provádět akce přímo ze sestav Power BI voláním funkcí uživatelských dat.
  • řídicí panelyReal-Time Intelligence monitorují streamovaná data s latencí podsekundy pomocí dotazů KQL a vizuálního vytváření.
  • Aktivátor rozpozná podmínky v streamovaných datech a aktivuje automatizované akce, jako jsou upozornění Teams, e-maily nebo toky Power Automate.
  • Technologie FABRIC IQ mapuje podniková data na sdílenou obchodní ontologii a umožňuje agentům umělé inteligence zdůvodnění dat s úplným obchodním kontextem.

Další informace najdete v tématu Sledování a vizualizace dat.

Externí integrace

Integrační systém se propojuje s externími systémy pro sběr dat a poskytování analytických výstupů:

  • Power Automate a Aktivátor dat umožňují automatizaci pracovních postupů v reálném čase na základě podmínek dat.
  • Integrace Microsoftu 365 poskytuje přehledy v Teams, SharePointu, PowerPointu a Excelu.
  • Rozhraní REST API a klientské knihovny poskytují programový přístup k prostředkům Infrastruktury.
  • Microsoft Entra ID zpracovává ověřování, podmíněný přístup a podporu služebního principálu.
  • Integrace Gitu s Azure DevOps a GitHubem umožňuje správu verzí a CI/CD pro položky fabric.
  • Microsoft Purview poskytuje jednotné zásady správného řízení dat, katalogizace a dodržování předpisů napříč datovými aktivy Fabric.

Další informace najdete v tématu Externí integrace a připojení platformy.

Podpora přirozeného jazyka a umělé inteligence

Podpora zpracování přirozeného jazyka je ve formě Power BI Copilot, Data Agents a Operations Agents, které mohou zpracovávat podniková data v OneLake a poskytovat odpovědi na základě datových položek, ke kterým mají uživatelé přístup. Data Agents můžete integrovat do microsoftu 365 Copilot, Microsoft Foundry a Copilot Studia, aby uživatelé mohli získat přehledy z OneLake v rámci svých stávajících pracovních postupů v různých aplikacích.