Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
platí pro:✅databáze SQL v Microsoft Fabric
Tento článek popisuje, jak používat SQL databázi ve Fabricu jako reverzní cíl ETL v rámci datového prostředí založeného na Fabricu. Poskytuje pokyny k architektuře, provozní vzory a aspekty implementace pro přesun kurátorovaných dat z analytických zdrojů (jako je Microsoft Fabric Data Warehouse nebo Fabric Lakehouse) do SQL databáze ve Fabric pro provozní použití aplikacemi, rozhraními API a v reálném čase.
Co je reverse ETL ve službě Fabric?
Mnoho zákazníků investovalo značné množství času a úsilí do vytváření procesů extrakce, transformace, načítání (ETL) pro transformaci nezpracovaných provozních dat na zpřesněná analytická data, která se dají použít pro vytváření obchodních sestav. Konečným výsledkem procesu ETL je obvykle analytické úložiště, jako je sklad nebo datové jezero, k němuž přistupuje vrstva pro generování sestav, například Power BI. Tato architektura slouží podnikovým uživatelům dobře, ale reportování je relativně statické a přehledy lze získat pouze pomocí lidského zásahu. Pomocí zpětného etl můžete transformovaná data řadit zpět do operačních systémů, aby aplikace a agenti mohli získat přehled o těchto analyzovaných datech v reálném čase. Reverse ETL odesílá data z faktů a dimenzí v analytických úložištích do obslužné vrstvy, ke které je možné přistupovat prostřednictvím koncových bodů, jako je GraphQL nebo přímo prostřednictvím dotazů TDS (tabulkového datového streamu ).
I když můžete provozní aplikace připojit přímo ke skladu nebo jezeru, jsou tato úložiště dat navržená pro analytické úlohy. Provozní úložiště dat, jako je SQL databáze ve Fabric, jsou navržena tak, aby podporovala transakční dotazy a poskytovala lepší výkon a škálovatelnost pro provozní úlohy. Provozní databáze také poskytují možnost dalšího rozšiřování dat o vektorové vkládání a další metadata pro usnadnění vektorového a hybridního vyhledávání a také načítání rozšířené generace (RAG).
- V tomto modelu zůstává sklad nebo jezero analytickým systémem záznamu.
- Databáze SQL v systému Fabric slouží jako provozní úložiště, které týmy vývojářů aplikací očekávají pro své SLA, a nabízí nízkou latenci, optimalizované indexování a přísná omezení dat a vztahů.
Běžné reverzní cíle ETL
Běžné reverzní cíle ETL obvykle představují kurátorované a vysoce hodnotné datové řezy, které můžou provozní systémy využívat s minimální transformací. Tyto cíle jsou navržené tak, aby poskytovaly přístup k důvěryhodným datům s nízkou latencí při zachování obchodní logiky použité v analytické vrstvě. Mezi příklady patří:
- Zákaznická a uživatelská data (například metriky zapojení, jako je aktivita relace, využití funkcí a interakce)
- Prodejní a marketingová data (například metriky bodování, jako je pravděpodobnost nákupu, skóre zapojení, pravděpodobnost převodu)
- Provozní a transakční data (například data objednávek a zásob, jako jsou úrovně zásob, stav objednávky a časování doručení)
- Odvozená data AI/ML (například přizpůsobená doporučení k produktům, prediktivní skóre, jako jsou rizika četnosti změn nebo náchylnost k prodeji nebo analýza mínění)
Mechanismy přesunu dat
Proces začíná definováním zdrojových dat, nastavením cíle a následným výběrem mechanismu přesunu dat. Zvolte jeden nebo více následujících mechanismů pro přesun dat z analytického úložiště do databáze SQL ve službě Fabric.
Návod
Obecně platí, že použijte:
- Pipelines pro jednoduché kopírování a plánované nahrávání.
- Toky dat Gen2 pro transformace s nízkými kódy
- Spark pro komplexní a rozsáhlé zpracování (včetně strojového učení).
- T-SQL napříč položkami , kde je k dispozici pro udržování operací orientovaných na SQL, například připojení tabulky v databázi SQL k tabulce ve skladu nebo koncovém bodu analýzy SQL.
| Mechanismus | Použít když | Síly | Důležité informace |
|---|---|---|---|
| Fabric datové kanály | Potřebujete spravované, opakovatelné zátěže (dávkové nebo mikrodávkové) kopírování dat. | Prvotřídní integrace; podporuje vodoznaky a uložené procedury. | Souběžnost; Škálování databáze SQL během načítání |
| Dataflow Gen2 | Potřebujete transformace dat s nízkými kódy a vylepšenou logiku procesu. | Uživatelsky přívětivý pro podnikání; podporuje tvarování a čištění sloupců. | Nižší propustnost pro velké svazky; plánování dělení |
| Spark (poznámkové bloky/úlohy) | Potřebujete komplexní transformace založené na kódu a rozsáhlé přetváření. | Úplné řízení kódu; efektivní rozdílové čtení; Podpora zápisu JDBC | Ověřování a dávkování; vyhnout se velkým transakcím |
| Dotazy T-SQL napříč položkami | Potřebujete přesun SQL v rámci databáze mezi položkami Fabric. | Minimální konfigurace; SQL-nativní; snadné plánování |
Referenční architektura: Reverse ETL do SQL databáze v rámci platformy Fabric
Referenční architektura pro reverse ETL ve Fabric spojuje základní stavební bloky potřebné k provozování upravovaných analytických dat. Ukazuje, jak data proudí z důvěryhodných analytických zdrojů prostřednictvím transformačních vrstev do strukturované databáze SQL. Provozní databáze slouží jako rozhraní pro podřízené systémy. Tento model zajišťuje, aby aplikace, rozhraní API a nástroje pro vytváření sestav mohly přistupovat k vysoce kvalitním datům s nízkou latencí, aniž by došlo k narušení integrity analytického systému záznamu.
Mezi základní komponenty tohoto toku patří:
- Zdroj: Kurátorované datové sady z datového skladu Fabric nebo Lakehouse (Delta)
- Transformace: Reverzní ETL transformace použité pomocí Pipelines, Dataflow Gen2, Sparku nebo T-SQL napříč položkami
- Cíl: SQL databáze ve Fabric s definovanou příchozí zónou, historií (volitelně), karanténou a obslužným schématem.
- Spotřebitelé: Aplikace prostřednictvím GraphQL nebo TDS, rozhraní API a Power BI pro řídicí panely a vytváření sestav v reálném čase.
Components
Následující komponenty jsou zapojeny do obecného toku pro použití SQL databáze ve Fabric jako zpětný cíl reverse ETL.
Obsluha a cílová schémata
- Namapujte zdrojová data na vhodná cílová schémata v databázi SQL ve Fabric.
- Volitelně můžete udržovat
historyschéma pro auditovatelnost. - Schéma
quarantinepoužijte pro odmítnuté záznamy (problémy s kvalitou dat). -
servingDefinujte schéma pro následnou spotřebu s příslušnými omezeními a indexováním.
Orchestrace
- Naplánujte přenosy v systému Fabric pomocí pipelines, toků dat nebo úloh Sparku.
- Pomocí integrovaného plánování můžete nakonfigurovat tempo, čas spuštění a časové pásmo.
- Naplánujte poznámkové bloky Sparku prostřednictvím portálu Fabric nebo rozhraní API.
- Monitorování průběhů od začátku do konce v centru monitorování služby Fabric.
Spotřeba
- Zpřístupnění dat prostřednictvím koncových bodů GraphQL nebo T-SQL přes TDS pomocí klientských knihoven jako ADO.NET a dalších.
- Vytvářejte Power BI řídicí panely a vizualizace přímo nad SQL databází ve Fabric.
Zásady správného řízení a zabezpečení
- Pro ověřování a autorizaci použijte ID Microsoft Entra .
- Zkombinujte oprávnění rolí pracovního prostoru Fabric a oprávnění SQL k podrobnému řízení.
- Volitelně můžete nakonfigurovat klíče spravované zákazníkem pro šifrování neaktivních uložených dat.
- Auditujte přístup a zabezpečte přenášená data pomocí služby Private Link.
Obsluha aplikace
Jakmile data v databázi SQL kurátorujete a aktualizujete, přesuňte fokus na povolení rychlého a spolehlivého přístupu pro provozní uživatele. V tomto kontextu služba aplikací znamená zpřístupnění důvěryhodných datových sad prostřednictvím rozhraní s nízkou latencí, která odpovídají moderním aplikačním vzorcům.
Po uložení a obnovení dat v databázi SQL v prostředí Fabric:
- Aby bylo možné obsluhovat provozní úlohy, zpřístupňujte data prostřednictvím koncových bodů GraphQL nebo protokolu TDS , která se mají využívat prostřednictvím ADO.NET a dalších klientských knihoven. Zadejte například informace o produktech, dodavatelský řetězec nebo případy použití zákaznických služeb.
- Spárujte datovou sadu s Power BI a doručujte řídicí panely v reálném čase a samoobslužnou analýzu.
Aspekty specifické pro fabric
SQL databáze v prostředí Fabric používá stejný databázový stroj SQL jako Azure SQL Database a je řízena, zabezpečována, fakturována a provozována prostřednictvím portálu Fabric. Nabízí také integrované zrcadlení do souborů Delta/Parquet uložených v Microsoft OneLake, ke které se přistupuje prostřednictvím koncového bodu analýzy SQL. Vzhledem k tomu, že se nachází v prostředí Microsoft Fabric, je potřeba při vytváření návrhu zvážit několik aspektů:
- Parita funkcí: SQL databáze ve Fabricu se sbližuje se službou Azure SQL Database. Ověřte konkrétní funkce , které potřebujete k zajištění vhodného účelu, a sledujte aktualizace plánu.
- Model zabezpečení: SQL databáze ve Fabric používá pouze ověřování Microsoft Entra ID. Podle toho naplánujte identity pro kanály, toky dat a úlohy Sparku.
- Replikace: Databáze SQL v Fabric automaticky replikuje data jen pro čtení do OneLake. Tato synchronizace je užitečná pro potřeby generování sestav a analýzy, zatímco databáze zůstává k dispozici pro provozní úlohy čtení a zápisu.