A Microsoft Fabric döntési útmutatója: válasszon egy adattárat
Ez a referencia-útmutató és a példaforgatókönyvek segítségével kiválaszthatja a Microsoft Fabric számítási feladataihoz tartozó adattárat.
Adattár tulajdonságai
Ezekkel az információkkal összehasonlíthatja a Fabric-adattárakat, például a warehouse- és lakehouse-adattárakat, az Eventhouse-t, az SQL Database-t és a Power BI-adatmartot az adatmennyiség, a típus, a fejlesztői személy, a képességkészlet, a műveletek és egyéb képességek alapján. Ezek az összehasonlítások a következő két táblázatba vannak rendezve:
1/2. táblázat | Lakehouse | Raktár | Eventhouse |
---|---|---|---|
Adatmennyiség | Korlátlan | Korlátlan | Korlátlan |
adattípus | Strukturálatlan félig strukturált, strukturált |
Strukturált félig strukturált (JSON) |
Strukturálatlan félig strukturált, strukturált |
elsődleges fejlesztői szerep | Adatmérnök, adattudós | Adatraktár-fejlesztő, adatmérnök, adatmérnök, adatbázis-fejlesztő | Alkalmazásfejlesztő, adatelemző, adatszakértő |
elsődleges fejlesztési készség | Spark (Scala, PySpark, Spark SQL, R) | SQL | Nincs kód, KQL, SQL |
által szervezett adatok | Mappák és fájlok, adatbázisok és táblák | Adatbázisok, sémák és táblák | Adatbázisok, sémák és táblák |
olvasási műveletek | Spark, T-SQL | T-SQL, Spark* | KQL, T-SQL, Spark |
írási műveletek | Spark (Scala, PySpark, Spark SQL, R) | T-SQL | KQL, Spark, összekötő-ökoszisztéma |
Többtáblás tranzakciók | Nem | Igen | Igen, többtáblás adatbetöltés |
elsődleges fejlesztési felület | Spark-jegyzetfüzetek, Spark-feladatdefiníciók | SQL-szkriptek | KQL-lekérdezéskészlet, KQL-adatbázis |
biztonság | RLS, CLS**, táblaszintű (T-SQL), Spark esetén egyik sem | objektumszintű, RLS, CLS, DDL/DML, dinamikus adatmaszkolás | Nyugtalan láb szindróma (RLS) |
Adatok elérése billentyűparancsokkal | Igen | Igen, SQL Analytics-végponton keresztül | Igen |
A parancsikonok forrása lehet | Igen (fájlok és táblák) | Igen (táblák) | Igen |
Lekérdezés az elemek között | Igen | Igen | Igen |
Fejlett analitika | Interfész nagy léptékű adatfeldolgozáshoz, beépített adat-párhuzamossághoz és hibatűréshez | Interfész nagy léptékű adatfeldolgozáshoz, beépített adat-párhuzamossághoz és hibatűréshez | Time Series natív elemek, teljes geotérbeli és lekérdezési képességek |
Speciális formázás támogatása | PARQUET, CSV, AVRO, JSON és bármely Apache Hive-kompatibilis fájlformátum használatával definiált táblák | PARQUET, CSV, AVRO, JSON és bármely Apache Hive-kompatibilis fájlformátum használatával definiált táblák | Teljes indexelés szabad szövegekhez és félig strukturált adatokhoz, például JSON-hoz |
betöltési késés | Azonnal elérhető a lekérdezéshez | Azonnal elérhető a lekérdezéshez | Várakozási sorba helyezett betöltés, a streamelési betöltés néhány másodperces késéssel rendelkezik |
* A Spark billentyűparancsokkal támogatja a táblázatokból való olvasást, még nem támogatja a nézetek, a tárolt eljárások, a függvények stb. elérését.
2. táblázat 2-ből | Fabric SQL-adatbázis | Power BI Datamart |
---|---|---|
adatmennyiség | 4 TB | Legfeljebb 100 GB |
adattípus | Strukturált félig strukturált, Strukturálatlan |
Strukturált |
elsődleges fejlesztői személyiség | AI-fejlesztő, alkalmazásfejlesztő, adatbázis-fejlesztő, adatbázis-rendszergazda | Adatkutató, adatelemző |
elsődleges fejlesztői készség | SQL | Nincs kód, SQL |
által szervezett adatok | Adatbázisok, sémák, táblák | Adatbázis, táblák, lekérdezések |
olvasási műveletek | T-SQL | Spark, T-SQL |
írási műveletek | T-SQL | Adatfolyamok, T-SQL |
többtáblás tranzakciók | Igen, teljes ACID-megfelelőség | Nem |
elsődleges fejlesztési felület | SQL-szkriptek | Power BI |
Biztonság | Objektumszint, RLS, CLS, DDL/DML, dinamikus adatmaszkolás | Beépített RLS-szerkesztő |
Adatok elérése billentyűparancsokkal | Igen | Nem |
A parancsikonok forrása lehet | Igen (táblák) | Nem |
Lekérdezés az elemek között | Igen | Nem |
Fejlett analitika | T-SQL elemzési képességek, a Delta Parquetbe replikált adatok a OneLake-ben elemzés céljából | Adatfeldolgozási felület automatizált teljesítményhangolással |
Speciális formázás támogatása | Táblatámogatás OLTP, JSON, vektor, gráf, XML, térbeli, kulcsérték esetén | PARQUET, CSV, AVRO, JSON és bármely Apache Hive-kompatibilis fájlformátum használatával definiált táblák |
betöltési késés | Azonnal elérhető a lekérdezéshez | Azonnal elérhető a lekérdezéshez |
** Oszlopszintű biztonság érhető el a Lakehouse-on egy SQL Analytics-végponton keresztül, T-SQL használatával.
Forgatókönyvek
Tekintse át ezeket a forgatókönyveket, ha segítségre van szüksége egy adattár kiválasztásához a Fabricben.
1. forgatókönyv
Susan, egy profi fejlesztő, új a Microsoft Fabricben. Készen állnak az adatok tisztítására, modellezésére és elemzésére, de úgy kell dönteniük, hogy adattárházat vagy tóházat építenek. Az előző táblázatban szereplő adatok áttekintése után az elsődleges döntési pontok a rendelkezésre álló képességkészlet és a többtáblás tranzakciók szükségessége.
Susan sok éve készít adattárházakat relációs adatbázismotorokon, és ismeri az SQL szintaxisát és funkcióit. A nagyobb csapatra gondolva az adatok elsődleges felhasználói az SQL- és SQL-elemzési eszközökkel is jártasak. Susan úgy dönt, hogy egy Fabric-raktár-t használ, amely lehetővé teszi a csapat számára, hogy elsősorban T-SQL-t használva kommunikáljon, ugyanakkor a szervezet minden Spark-felhasználójának hozzáférést biztosít az adatokhoz.
Susan létrehoz egy új adattárházat, és a többi SQL Server-adatbázishoz hasonlóan a T-SQL használatával is kommunikál vele. A meglévő T-SQL-kód nagy része, amelyet a raktár SQL Serveren való buildeléséhez írt, a Fabric adattárházban fog működni, ami megkönnyíti az átállást. Ha úgy dönt, akár ugyanazokat az eszközöket is használhatja, amelyek más adatbázisokkal, például az SQL Server Management Studióval működnek. A Fabric portál SQL-szerkesztőjével Susan és a csapat többi tagja olyan elemző lekérdezéseket ír, amelyek más adattárházakra és lakehouse-okon belüli Delta-táblákra hivatkoznak, egyszerűen háromrészes nevek alkalmazásával az adatbázisok közötti lekérdezésekhez.
2. forgatókönyv
Robnak, az adatszakértőnek több terabájtnyi adatot kell tárolnia és modelleznie a Fabricben. A csapat a PySpark és a T-SQL készségek kombinációjával rendelkezik. A T-SQL-lekérdezéseket futtató csapatok többsége fogyasztó, ezért nem kell INSERT, UPDATE vagy DELETE utasítást írnia. A többi fejlesztő kényelmesen dolgozik a jegyzetfüzetekben, és mivel az adatokat a Delta tárolja, hasonló SQL-szintaxist használhatnak.
Rob úgy dönt, hogy egy lakehousehasznál, amely lehetővé teszi az adatmérnöki csapat számára, hogy különböző készségeiket az adatok kezelésére használják, és hogy a T-SQL-ben magasan képzett csapattagok is felhasználhassák az adatokat.
3. forgatókönyv
Ash egy civil fejlesztő és Power BI fejlesztő. Ismerik az Excelt, a Power BI-t és az Office-t. Adatterméket kell létrehozniuk egy üzleti egységhez. Tudják, hogy nem igazán rendelkeznek az adattárház vagy egy tóház felépítéséhez szükséges készségekkel, és ezek túl soknak tűnnek az igényeik és adatmennyiségük szempontjából. Áttekintik az előző táblázatban szereplő részleteket, és látják, hogy az elsődleges döntési pontok a saját képességeik, valamint az önkiszolgáló, a kódképesség nélküli és a 100 GB-nál nagyobb adatmennyiség iránti igényük.
Ash a Power BI-t és a Microsoft Office-t ismerő üzleti elemzőkkel dolgozik, és tudja, hogy már rendelkezik Prémium szintű kapacitás-előfizetéssel. Ahogy a nagyobb csapatra gondolnak, rájönnek, hogy az adatok elsődleges felhasználói elemzők, akik ismerik a kód nélküli és az SQL-elemzési eszközöket. Ash úgy dönt, hogy egy Power BI-adatmarthasznál, amely lehetővé teszi a csapat számára, hogy kódolás nélküli élménnyel gyorsan fejlesszék a képességeiket. A lekérdezések a Power BI-on és a T-SQL-en keresztül is végrehajthatók, miközben a szervezet bármely Spark-felhasználója is hozzáférhet az adatokhoz.
4. forgatókönyv
Daisy üzleti elemző, aki a Power BI használatával elemezte az ellátási lánc szűk keresztmetszeteit egy nagy globális kiskereskedelmi lánc esetében. Olyan méretezhető adatmegoldást kell létrehozniuk, amely több milliárd adatsort képes kezelni, és felhasználhatók olyan irányítópultok és jelentések készítésére, amelyek üzleti döntések meghozatalához használhatók. Az adatok különböző strukturált, részben strukturált és strukturálatlan formátumban származó üzemekből, szállítókból, fuvarozókból és más forrásokból származnak.
Daisy úgy dönt, hogy egy Eventhouse-at használ a méretezhetősége, gyors reakcióidők, fejlett elemzési képességei, például az idősorozat-elemzés, térinformatikai függvények, valamint a Power BI-ban elérhető gyors közvetlen lekérdezési mód miatt. A lekérdezések a Power BI és a KQL használatával végrehajthatók a jelenlegi és az előző időszakok összehasonlítása, a felmerülő problémák gyors azonosítása vagy a szárazföldi és tengeri útvonalak geo-térbeli elemzésének biztosítása érdekében.
5. forgatókönyv
Kirby egy olyan alkalmazástervező, aki jártos a .NET-alkalmazások operatív adatokhoz való fejlesztésében. A relációs integritás érdekében magas egyidejűségi adatbázisra van szükségük, teljes ACID-tranzakciómegfelelőséggel és szigorúan kikényszerített idegen kulcsokkal. Kirby az automatikus teljesítményhangolás előnyeit szeretné egyszerűsíteni a napi adatbázis-kezelés érdekében.
Kirby egy SQL-adatbázist hoz létre a Fabric-ban, ugyanazzal az SQL Database-motorral, mint az Azure SQL Database. A Fabric SQL-adatbázisai automatikusan méretezhetőek, hogy kielégítsék az igényeket a munkanap folyamán. A tranzakciós táblák teljes funkcionalitásával és a tranzakcióelkülönítési szintek rugalmasságával rendelkeznek a szerializálhatótól a véglegesített pillanatképek olvasásaig. A Fabric SQL-adatbázisa automatikusan létrehoz és töröl nem klaszterezett indexeket az erős jelzésekkel bíró végrehajtási tervek megfigyelése alapján.
Kirby forgatókönyvében az operatív alkalmazásból származó adatokat más adatokkal kell összekapcsolni a Fabricben: a Sparkban, egy raktárban és egy eventhouse valós idejű eseményeiből. Minden Fabric-adatbázis tartalmaz egy SQL Analytics-végpontot, így az adatok valós időben érhetők el a Sparkból vagy Power BI-lekérdezésekkel DirectLake módban. Ezek a jelentéskészítési megoldások megkímélik az elsődleges operatív adatbázist az elemzési számítási feladatok terhelésétől, és elkerülik a denormalizálást. A Kirby más SQL-adatbázisokban is rendelkezik meglévő üzemeltetési adatokkal, és átalakítás nélkül kell importálnia az adatokat. Ha a meglévő operatív adatokat adattípus-átalakítás nélkül szeretné importálni, a Kirby adatfolyamokat tervez a Fabric Data Factoryvel, hogy adatokat importáljon a Fabric SQL-adatbázisba.