Zdieľať cez


Použite SQL databázu v reverznom ETL

Vzťahuje sa na:databáza SQL v službe Microsoft Fabric

Tento článok popisuje, ako používať SQL databázu vo Fabric ako reverzný ETL cieľ v rámci dátovej správy založenej na Fabric. Poskytuje architektonické usmernenie, prevádzkové vzory a implementačné úvahy pri presune kurátorských dát z analytických zdrojov (ako Microsoft Fabric Data Warehouse alebo Fabric Lakehouse) do SQL databázy v Fabric na prevádzkové využitie aplikáciami, API a reálnymi zážitkami.

Čo je reverse ETL v Fabric?

Mnohí zákazníci investovali značný čas a úsilie do vytvárania procesov extrahovania, transformácie a načítania (ETL), aby premenili surové prevádzkové dáta na prepracovanejšie analytické dáta, ktoré môžu byť využité pre obchodné reportovanie. Konečným výsledkom ETL procesu je zvyčajne analytické úložisko, ako je sklad alebo jazerný dom, ku ktorému pristupuje reportová vrstva ako Power BI. Táto architektúra dobre slúži podnikateľským používateľom, ale reportovanie je relatívne statické a poznatky možno získať len ľudským zásahom. Použitím reverzného ETL môžete transformované dáta vracať späť do operačných systémov, aby aplikácie a agenti mohli získavať poznatky z týchto analyzovaných dát v reálnom čase. Reverzný ETL posiela dáta z faktov a rozmerov v analytických úložiskách do zásobovacej vrstvy, kde je možné k nim pristupovať cez koncové body ako GraphQL alebo priamo cez TDS (Tabular Data Stream) dotazy.

Aj keď môžete prevádzkové aplikácie priamo pripojiť k skladu alebo jazeru, tieto dátové úložiská sú navrhnuté pre analytické pracovné zaťaženie. Prevádzkové dátové úložiská, podobne ako SQL databázy vo Fabric, sú navrhnuté na podporu transakčných dotazov a poskytujú lepší výkon a škálovateľnosť pre prevádzkové pracovné zaťaženia. Prevádzkové databázy vám tiež umožňujú ďalej obohatiť dáta vektorovými vkladmi a ďalšími metadátami na uľahčenie vektorového a hybridného vyhľadávania, ako aj generovania doplneného vyhľadávaním (RAG).

  • V tomto vzore zostáva sklad alebo jazerný dom analytickým systémom záznamu.
  • SQL databáza vo Fabric slúži ako operačné úložisko, ktoré ponúka nízku latenciu, upresnené indexovanie, prísne dátové a vzťahové obmedzenia a SLA, ktoré očakávajú aplikačné tímy.

Bežné ciele reverzného ETL

Bežné ciele reverzného ETL zvyčajne predstavujú starostlivo vybrané, vysoko hodnotné dátové rezy, ktoré môžu prevádzkové systémy spotrebovať s minimálnou transformáciou. Tieto ciele sú navrhnuté tak, aby poskytli prístup k dôveryhodným dátam s nízkou latenciou pri zachovaní obchodnej logiky aplikovanej v analytickej vrstve. Príklady:

  • Údaje o zákazníkoch a používateľoch (napríklad metriky zapojenia ako aktivita relácií, používanie funkcií a interakcie)
  • Údaje z predaja a marketingu (napríklad hodnotiace metriky ako sklon nakupovať, skóre zapojenia, pravdepodobnosť konverzie)
  • Prevádzkové a transakčné údaje (napríklad údaje o objednávkach a zásobách ako úrovne zásob, stav objednávok a časovanie dodania)
  • Dáta odvodené z AI/ML (napríklad personalizované odporúčania produktov, prediktívne skóre ako riziko odchodu alebo tendencia k upsellu, alebo analýza sentimentu)

Mechanizmy pohybu dát

Proces začína definovaním zdrojových dát, nastavením cieľa a následným výberom mechanizmu pohybu dát. Vyberte si jeden alebo viac z nasledujúcich mechanizmov na presun dát z analytického úložiska do SQL databázy vo Fabric.

Tip

Vo všeobecnosti používajte:

  • Pipeline pre jednoduché kopírovanie a plánované načítania.
  • Dataflows Gen2 pre nízkokódové transformácie.
  • Spark pre komplexné a veľkorozmerné spracovanie (vrátane strojového učenia).
  • T-SQL naprieč položkami , kde je to možné, aby sa operácie udržali zamerané na SQL, napríklad spojením tabuľky v SQL databáze s tabuľkou v sklade alebo v SQL analytickom endpointe.
Mechanizmus Používajte, keď Silné Úvahy
údajových kanálov služby Fabric Potrebujete riadené, opakovateľné načítania (dávkové alebo mikrodávkové) operácií kopírovania dát prvotriedna integrácia; podporuje vodoznakovanie a uložené procedúry Súbežnosť; Škálovať SQL databázu počas zaťaženia
Tok údajov Gen2 Potrebujete nízkokódové dátové transformácie a vylepšenú procesnú logiku Priateľské k podnikaniu; podporuje tvarovanie a čistenie stĺpcov Nižšia priepustnosť pri veľkých objemoch; Rozdelenie plánu
Spark (zápisníky/pracovné pozície) Potrebujete komplexné transformácie založené na kóde a rozsiahle pretvarovanie Plná kontrola kódu; efektívne čítania Delta; Podpora zápisu JDBC Autentifikácia a dávkovanie; Vyhnite sa veľkým transakciám
Cross-item T-SQL dotazy Potrebujete pohyb SQL v databáze medzi Fabric položkami Minimálne inštalácie; SQL-natívne; Jednoduché naplánovať

Referenčná architektúra: zvrátiť ETL na SQL databázu v Fabric

Referenčná architektúra pre reverzné ETL v Fabric spája základné stavebné bloky potrebné na operácionalizáciu kurátorských analytických dát. Ukazuje, ako dáta prúdia z dôveryhodných analytických zdrojov cez transformačné vrstvy do štruktúrovanej SQL databázy. Prevádzková databáza slúži ako rozhranie pre downstream systémy. Tento vzorec zabezpečuje, že aplikácie, API a nástroje na reportovanie môžu pristupovať k dátam s nízkou latenciou a vysokou kvalitou bez ohrozenia integrity analytického systému záznamu.

Základné zložky tohto toku zahŕňajú:

  • Zdroj: Kurátorské dátové súbory z Fabric Data Warehouse alebo Lakehouse (Delta).
  • Transformácie: Reverzné ETL transformácie aplikované pomocou Pipelines, Dataflow Gen2, Spark alebo cross-item T-SQL.
  • Cieľ: SQL databáza v Fabric s definovanými schémami pristátia, histórie (voliteľné), karantény a servisu.
  • Spotrebitelia: Aplikácie cez GraphQL alebo TDS, API a Power BI pre dashboardy a reportovanie v reálnom čase.

Schéma reverznej ETL referenčnej architektúry zahŕňajúcej SQL databázu vo Fabric.

Súčasti

Nasledujúce komponenty sú zapojené do všeobecného toku používania SQL databázy v Fabric ako reverzného ETL cieľa.

Schémy podávania a pristávania

  • Mapujte zdrojové dáta na príslušné pristávacie schémy v SQL databáze vo Fabric.
  • Voliteľne si udržiavajte schému history auditovateľnosti.
  • Použite schému quarantine pre odmietnuté (problémy s kvalitou dát).
  • Definujte schému serving pre následnú spotrebu s vhodnými obmedzeniami a indexovaním.

Zosúladenie

  • Plánujte prenosy vo Fabric pomocou Pipelines, Dataflow alebo Spark Jobs.
  • Použite zabudované plánovanie na nastavenie kadencie, času začiatku a časového pásma.
  • Plánujte Spark Notebooks cez portál Fabric alebo API.
  • Monitorujte end-to-end behy v Fabric Monitoring hube.

Spotreba

  • Sprístupniť dáta cez koncové body GraphQL alebo T-SQL cez TDS pomocou klientskych knižníc ako ADO.NET (a ďalšie).
  • Vytvárajte Power BI dashboardy a vizualizácie priamo cez SQL databázu vo Fabrice.

Riadenie a zabezpečenie

  • Na autentifikáciu a autorizáciu použite Microsoft Entra ID .
  • Skombinujte roly pracovného priestoru Fabric a SQL oprávnenia pre detailnú kontrolu.
  • Voliteľne nakonfigurujte zákaznícky spravované kľúče na šifrovanie dát v pokoji.
  • Auditujte prístup a zabezpečte prenos dát pomocou Private Link.

Podávanie aplikácií

Keď budete kurátorovať a obnovovať dáta v SQL databáze, zamerajte sa na rýchle a spoľahlivé prístupy pre prevádzkových spotrebiteľov. V tomto kontexte znamená servisovanie aplikácií zprístupňovanie dôveryhodných dátových súborov prostredníctvom rozhraní s nízkou latenciou, ktoré sú v súlade s modernými aplikačnými vzormi.

Po pristátí a obnovení dát v SQL databáze vo Fabric:

  • Na obsluhu prevádzkových záťaží sprístupnite dáta prostredníctvom koncových bodov GraphQL alebo protokolu TDS , ktoré majú byť spotrebované cez ADO.NET a ďalšie klientské knižnice. Napríklad poskytnúť informácie o produkte, prípadoch použitia v dodávateľskom reťazci alebo zákazníckom servise.
  • Spárujte dátovú sadu s Power BI , aby ste dodali dashboardy v reálnom čase a samoobslužnú analytiku.

Špecifické úvahy pre tkaninu

SQL databáza vo Fabric používa rovnaký SQL Database Engine ako Azure SQL Database a je riadená, zabezpečená, fakturovaná a prevádzkovaná prostredníctvom portálu Fabric. Ponúka tiež zabudované zrkadlenie do súborov Delta/Parquet uložených v Microsoft OneLake, ku ktorým sa pristupuje cez SQL analytics endpoint. Keďže je to v prostredí Microsoft Fabric, je potrebné zvážiť niekoľko vecí pri tvorbe dizajnu:

  • Parita funkcií: SQL databáza vo Fabric sa konverguje s Azure SQL Database. Overujte konkrétne funkcie , ktoré potrebujete na zabezpečenie vhodnosti pre účel, a sledujte aktualizácie cestovnej mapy.
  • Bezpečnostný model: SQL databáza vo Fabric používa iba autentifikáciu Microsoft Entra ID . Plánujte identity pre pipeline, dátové toky a Spark úlohy podľa toho.
  • Replikácia: SQL databáza v Fabric automaticky replikuje iba na čítanie dáta do OneLake. Táto synchronizácia je užitočná pre potreby reportovania a analýzy, pričom databáza zostáva dostupná pre operačné zaťaženie čítania/zápisu.