Megosztás:


SQL Database használata fordított ETL-ben

A következőre vonatkozik: SQL-adatbázis a Microsoft Fabricben

Ez a cikk azt ismerteti, hogyan használható az SQL Database a Fabricben fordított ETL-célként egy Fabric-alapú adattulajdonon belül. Architekturális útmutatást, működési mintákat és megvalósítási szempontokat biztosít a válogatott adatok elemzési forrásokból (például a Microsoft Fabric Data Warehouse-ból vagy a Fabric Lakehouse-ból) az SQL Database-be való áthelyezéséhez a Fabricben alkalmazások, API-k és valós idejű élmények általi üzemeltetési felhasználás céljából.

Mi a fordított ETL a Fabricben?

Sok ügyfél jelentős időt és energiát fektetett abba , hogy kinyerési, átalakítási, betöltési (ETL) folyamatokat hozzon létre, hogy a nyers működési adatokat kifinomultabb elemzési adatokká alakítsa át, amelyek felhasználhatók az üzleti jelentésekhez. Az ETL-folyamat végeredménye általában egy elemzési tár, például egy raktár vagy egy tóház, amelyhez egy jelentési réteg, például a Power BI fér hozzá. Ez az architektúra jól szolgálja az üzleti felhasználókat, de a jelentéskészítés viszonylag statikus, és az elemzések csak emberi beavatkozással származhatnak. A fordított ETL használatával az átalakított adatokat visszatáplálhatja az operatív rendszerekbe, így az alkalmazások és ügynökök valós időben nyerhetnek elemzéseket az elemzett adatokból. A fordított ETL leküldi az adatokat az elemzési tárolókban lévő tényekből és dimenziókból egy kiszolgáló rétegbe, ahol az olyan végpontokon keresztül érhető el, mint a GraphQL vagy közvetlenül tDS-lekérdezések (táblázatos adatfolyamok).

Bár az operatív alkalmazásokat közvetlenül egy raktárhoz vagy egy tóházhoz csatlakoztathatja, ezek az adattárak elemzési számítási feladatokhoz vannak kialakítva. Az operatív adattárak, például az SQL Database a Fabricben, tranzakciós lekérdezések támogatására lettek tervezve, és jobb teljesítményt és méretezhetőséget biztosítanak az üzemeltetési számítási feladatokhoz. Az operatív adatbázisok lehetővé teszik az adatok további bővítését vektoros beágyazásokkal és további metaadatokkal a vektoros és hibrid keresés, valamint a lekéréses kiterjesztett generáció (RAG) megkönnyítése érdekében.

  • Ebben a mintában a raktár vagy a lakehouse marad a rekordelemzési rendszer.
  • Az SQL Database a Fabricben olyan operatív tárolóként szolgál, amely alacsony késést, finomított indexelést, szigorú adat- és kapcsolatkorlátozásokat, valamint az alkalmazáscsapatok által várt SLA-kat kínál.

Gyakori fordított ETL-célok

A gyakori fordított ETL-célok általában válogatott, nagy értékű adatszeleteket jelentenek, amelyeket az operatív rendszerek minimális átalakítással használhatnak fel. Ezek a célok úgy vannak kialakítva, hogy alacsony késésű hozzáférést biztosítsanak a megbízható adatokhoz, miközben megőrzik az elemzési rétegben alkalmazott üzleti logikát. Ide sorolhatóak például a következők:

  • Ügyfél- és felhasználói adatok (például előjegyzési metrikák, például munkamenet-tevékenység, funkcióhasználat és interakciók)
  • Értékesítési és marketingadatok (például pontozási metrikák, például a vásárlási hajlandóság, az előjegyzési pontszámok, az átalakítás valószínűsége)
  • Működési és tranzakciós adatok (például rendelési és készletadatok, például készletszintek, rendelés állapota és kézbesítési időzítések)
  • AI/ML származtatott adatok (például személyre szabott termékjavaslatok, prediktív pontszámok, mint például a forgalomkockázat vagy a felfelé irányuló hajlandóság vagy a hangulatelemzés)

Adatáthelyezési mechanizmusok

A folyamat a forrásadatok meghatározásával, a célhely beállításával, majd egy adatáthelyezési mechanizmus kiválasztásával kezdődik. Válasszon egy vagy több alábbi mechanizmust az adatok az elemzési tárból az SQL Database-be való áthelyezéséhez a Fabricben.

Jótanács

Általános szabályként használja a következőket:

  • Folyamatok egyszerű másoláshoz és ütemezett betöltéshez.
  • Adatfolyamok Gen2 alacsony kódú átalakításokhoz.
  • Spark összetett és nagy léptékű feldolgozáshoz (beleértve a gépi tanulást is).
  • Több elemből álló T-SQL , ahol elérhető az SQL-központú műveletek megtartásához, például egy SQL-adatbázis tábláinak egy raktárban vagy SQL Analytics-végponton lévő táblához való csatlakoztatásához.
Mechanizmus Használat: Erősségeit Megfontolások
Fabric Adatfolyamok Az adatmásolási műveletekhez felügyelt, megismételhető betöltésekre (köteg vagy mikroköteg) van szüksége. Első osztályú integráció; támogatja a vízjelezést és a tárolt eljárásokat Párhuzamosság; SQL-adatbázis méretezhetősége terhelések során
Adatfolyam Gen2 Alacsony kódszámú adatátalakításokra és továbbfejlesztett folyamatlogikára van szükség Üzletbarát; támogatja az oszlopok formázását és tisztítását Kisebb átviteli sebesség nagy kötetek esetén; particionálás megtervezése
Spark (jegyzetfüzetek/munkafolyamatok) Összetett kódalapú átalakításokra és nagy léptékű átalakításra van szükség Teljes kódvezérlés; hatékony Delta-olvasások; JDBC írási támogatása Hitelesítés és kötegelés; kerülje a nagy tranzakciókat
Elemek közötti T-SQL-lekérdezések Adatbázison belüli SQL-áthelyezésre van szükség a Fabric-elemek között Minimális vízvezeték; SQL-natív; könnyen ütemezhető

Referenciaarchitektúra: fordított ETL és SQL-adatbázis a Fabricben

A fabricbeli fordított ETL referenciaarchitektúrája egyesíti a válogatott elemzési adatok működéséhez szükséges alapvető építőelemeket. Bemutatja, hogy az adatok hogyan áramolnak megbízható elemzési forrásokból az átalakítási rétegeken át egy strukturált SQL-adatbázisba. Az operatív adatbázis szolgál az alsóbb rétegbeli rendszerek interfészeként. Ez a minta biztosítja, hogy az alkalmazások, API-k és jelentéskészítő eszközök alacsony késésű, kiváló minőségű adatokhoz férjenek hozzá anélkül, hogy veszélyeztetné az elemzési rendszer integritását.

A folyamat fő összetevői a következők:

  • Forrás: Válogatott adatkészletek a Fabric adattárházból vagy Lakehouse-ból (Delta).
  • Átalakítások: A fordított ETL-átalakítások alkalmazása Pipeline-okon, Adatfolyam Gen2, Spark, vagy elemek közötti T-SQL használatával.
  • Cél: SQL-adatbázis a Fabricben meghatározott leszállással, előzményekkel (nem kötelező), karanténnal és sémák kiszolgálásával.
  • Felhasználók: Alkalmazások GraphQL-en vagy TDS-en, API-n és Power BI-on keresztül valós idejű irányítópultokhoz és jelentésekhez.

Egy fordított ETL-referenciaarchitektúra ábrája, amely az SQL-adatbázist foglalja magában a Fabricben.

Components

Az SQL-adatbázis fordított ETL célpontjaként való használatának általános folyamatában a következő összetevők vesznek részt.

Szolgáltatási és érkezési sémák

  • A forrásadatok leképezése a megfelelő cél sémákra az SQL Database és a Fabric környezetében.
  • Opcionálisan fenntarthatja a sémát history az auditáláshoz.
  • quarantine Séma használata elutasításokhoz (adatminőségi problémák).
  • Adjon meg egy sémát serving az alsóbb rétegbeli felhasználáshoz megfelelő korlátozásokkal és indexeléssel.

Hangszerelés

  • Az átvitelek ütemezése a Fabric platformon Pipeline, adatfolyamok vagy Spark-feladatok használatával.
  • A beépített ütemezés használatával konfigurálhatja az ütemezést, a kezdési időt és az időzónát.
  • Spark-jegyzetfüzetek ütemezése a Fabric portálon vagy API-val.
  • A végpontok közötti futtatásokat a Fabric Monitoring központban lehet monitorozni.

Fogyasztás

  • Adatok közzététele GraphQL-végpontokon vagy T-SQLTDS igénybevételével, klienskönyvtárak, például ADO.NET (és mások) használatával.
  • Power BI-irányítópultok és -vizualizációk készítése közvetlenül az SQL-adatbázison keresztül a Fabricben.

Cégirányítás és biztonság

  • Hitelesítéshez és engedélyezéshez használja a Microsoft Entra-azonosítót .
  • A Fabric-munkaterület szerepköreinek engedélyei és az SQL-engedélyek kombinálása részletes vezérléshez.
  • Igény szerint konfigurálja az ügyfél által kezelt kulcsokat az inaktív adatok titkosításához.
  • Naplózhatja a hozzáférést és biztonságossá teheti az átvitt adatokat a Private Link használatával.

Alkalmazásszolgáltatás

Miután az adatok összeállítása és frissítése megtörtént az SQL-adatbázisban, összpontosítson a gyors és megbízható hozzáférés biztosítására az operatív felhasználók számára. Ebben az összefüggésben az alkalmazás-kiszolgálás azt jelenti, hogy megbízható adathalmazokat a modern alkalmazásmintákhoz igazodó, alacsony késésű felületeken keresztül tesz közzé.

Az adatoknak a Fabricben lévő SQL Database-ben való landálása és frissítése után:

  • Az operatív számítási feladatok kiszolgálásához tegye elérhetővé az adatokat GraphQL-végpontokon vagy a TDS-protokollon keresztül, ADO.NET és más ügyfélkódtárakon keresztül. Adjon meg például termékinformációkat, ellátási láncot vagy ügyfélszolgálati használati eseteket.
  • Párosítsa az adathalmazt a Power BI-val valós idejű irányítópultok és önkiszolgáló elemzések biztosításához.

Szövetspecifikus szempontok

Az SQL Database a Fabricben ugyanazt az SQL Database-motort használja, mint az Azure SQL Database , és a Fabric portálon keresztül vezérelhető, biztonságos, számlázott és üzemeltethető. Emellett beépített tükrözést is kínál a Microsoft OneLake-ben tárolt Delta/Parquet fájlokba, amelyeket egy SQL Analytics-végponton keresztül érhet el. Mivel a Microsoft Fabric-környezetben van, érdemes megfontolni néhány szempontot a kialakítás létrehozásakor:

  • Szolgáltatásparitás: A Fabricben lévő SQL Database az Azure SQL Database-hez konvergens. A célnak megfelelő állapot biztosításához és az ütemtervfrissítések figyeléséhez szükséges funkciók ellenőrzése.
  • Biztonsági modell: Az SQL Database in Fabric csak Microsoft Entra ID-hitelesítést használ. Ennek megfelelően tervezze meg a folyamatok, adatfolyamok és Spark-feladatok identitásait.
  • Replikáció: A Fabric SQL adatbázisa automatikusan replikálja a csak olvasható adatokat a OneLake-be. Ez a szinkronizálás hasznos a jelentéskészítési és elemzési igényekhez, míg az adatbázis továbbra is elérhető marad az olvasási/írási üzemeltetési számítási feladatokhoz.