Adatfolyam Gen2-adatcélok és felügyelt beállítások
Miután megtisztította és előkészítette az adatokat a Dataflow Gen2-vel, egy célhelyre szeretné helyezni az adatokat. Ezt a 2. generációs adatfolyam adatcél-képességeivel teheti meg. Ezzel a funkcióval különböző célhelyek közül választhat, például az Azure SQL-ből, a Fabric Lakehouse-ból és még sok másból. A Gen2 adatfolyam ezután a célhelyre írja az adatokat, és onnan további elemzésre és jelentéskészítésre használhatja az adatokat.
Az alábbi lista a támogatott adatcélokat tartalmazza.
- Azure SQL-adatbázisok
- Azure Data Explorer (Kusto)
- Fabric Lakehouse
- Hálóraktár
- Fabric KQL-adatbázis
Belépési pontok
A Dataflow Gen2-ben minden adat-lekérdezés rendelkezhet adatcélokkal. A függvények és listák nem támogatottak; csak táblázatos lekérdezésekre alkalmazhatja. Minden lekérdezéshez külön-külön megadhatja az adatcélt, és több különböző célhelyet is használhat az adatfolyamon belül.
Az adat célhelyének megadásához három fő belépési pont áll rendelkezésre:
A felső menüszalagon keresztül.
Lekérdezési beállításokon keresztül.
A diagramnézeten keresztül.
Csatlakozás az adat célhelyéhez
Az adatcélhoz való csatlakozás hasonló az adatforráshoz való csatlakozáshoz. A kapcsolatok az adatok olvasására és írására is használhatók, mivel ön rendelkezik a megfelelő engedélyekkel az adatforráshoz. Létre kell hoznia egy új kapcsolatot, vagy ki kell választania egy meglévő kapcsolatot, majd válassza a Tovább gombot.
Új tábla létrehozása vagy meglévő tábla kiválasztása
Amikor betölti az adatcélt, létrehozhat egy új táblát, vagy kiválaszthat egy meglévő táblát.
Új tábla létrehozása
Amikor új tábla létrehozása mellett dönt, a Dataflow Gen2 frissítése során egy új tábla jön létre az adat célhelyen. Ha a tábla a jövőben manuálisan a célhelyre való lépéssel törlődik, az adatfolyam a következő adatfolyam-frissítés során újra létrehozza a táblát.
Alapértelmezés szerint a tábla neve megegyezik a lekérdezés nevével. Ha a táblanévben érvénytelen karakterek vannak, amelyeket a célhely nem támogat, a rendszer automatikusan módosítja a tábla nevét. Sok célhely például nem támogatja a szóközöket és a speciális karaktereket.
Ezután ki kell választania a céltárolót. Ha a Fabric-adatcélok bármelyikét választotta, a kezelővel kiválaszthatja azt a Háló-összetevőt, amelybe be szeretné tölteni az adatokat. Az Azure-célhelyek esetében megadhatja az adatbázist a kapcsolat létrehozásakor, vagy kiválaszthatja az adatbázist a kezelői felületen.
Meglévő tábla használata
Meglévő tábla kiválasztásához használja a kezelő tetején található kapcsolót. Meglévő tábla kiválasztásakor ki kell választania a Háló összetevőt/adatbázist és a táblát is a kezelővel.
Meglévő tábla használata esetén a tábla semmilyen esetben nem hozható létre újra. Ha manuálisan törli a táblát az adatcélból, a Dataflow Gen2 nem hozza létre újra a táblát a következő frissítéskor.
Új táblák felügyelt beállításai
Amikor új táblába tölt be, az automatikus beállítások alapértelmezés szerint be vannak kapcsolva. Ha az automatikus beállításokat használja, a Dataflow Gen2 kezeli a leképezést. Az automatikus beállítások a következő viselkedést biztosítják:
Frissítési módszer cseréje: Az adatok minden adatfolyam-frissítéskor lecserélődnek. A célhelyen lévő adatok el lesznek távolítva. A célhelyen lévő adatok helyébe az adatfolyam kimeneti adatai kerülnek.
Felügyelt leképezés: A megfeleltetés az Ön számára van kezelve. Ha módosítania kell az adatokat/lekérdezéseket egy másik oszlop hozzáadásához vagy egy adattípus módosításához, a rendszer automatikusan módosítja a leképezést ehhez a változáshoz az adatfolyam újbóli közzétételekor. Nem kell minden alkalommal átmennie az adat célhelyi felületére, amikor módosításokat hajt végre az adatfolyamon, így az adatfolyam újbóli közzétételekor egyszerű sémamódosításokat hajthat végre.
Tábla elvetése és újbóli létrehozása: A sémamódosítások engedélyezéséhez a rendszer minden adatfolyam-frissítéskor elveti és újra létrehozza a táblát. Az adatfolyam frissítése a táblához korábban hozzáadott kapcsolatok vagy mértékek eltávolítását okozhatja.
Feljegyzés
Az automatikus beállítás jelenleg csak a Lakehouse és az Azure SQL Database esetében támogatott adatcélként.
Manuális beállítások
Az Automatikus beállítások használatának letiltásával teljes mértékben szabályozhatja, hogyan töltheti be az adatokat az adat célhelyére. Az oszlopleképezést úgy módosíthatja, hogy módosítja a forrástípust, vagy kizárja azokat az oszlopokat, amelyekre nincs szüksége az adatcélban.
Metódusok frissítése
A legtöbb célhely támogatja a hozzáfűzést és a cserét is frissítési módszerként. A Fabric KQL-adatbázisok és az Azure Data Explorer azonban nem támogatja a cserét frissítési módszerként.
Csere: Minden adatfolyam-frissítéskor az adatok el lesznek távolítva a célhelyről, és az adatfolyam kimeneti adatai lesznek lecserélve.
Hozzáfűzés: Minden adatfolyam-frissítésnél az adatfolyam kimeneti adatai hozzá lesznek fűzve az adat céltáblájának meglévő adataihoz.
Sémabeállítások a közzétételhez
A közzététel sémabeállításai csak a frissítési módszer cseréjekor érvényesek. Adatok hozzáfűzésekor a séma módosítása nem lehetséges.
Dinamikus séma: A dinamikus séma kiválasztásakor az adatfolyam újbóli közzétételekor engedélyezi a sémamódosításokat az adat célhelyen. Mivel nem felügyelt leképezést használ, a lekérdezés módosításakor frissítenie kell az oszlopleképezést az adatfolyam célfolyamatában. Az adatfolyam frissítésekor a tábla el lesz dobva, és újra létrejön. Az adatfolyam frissítése a táblához korábban hozzáadott kapcsolatok vagy mértékek eltávolítását okozhatja.
Rögzített séma: A rögzített séma kiválasztásakor a sémamódosítások nem lehetségesek. Az adatfolyam frissítésekor a rendszer csak a tábla sorait ejti el, és az adatfolyam kimeneti adataira cseréli. Az asztalon lévő kapcsolatok és mértékek érintetlenek maradnak. Ha bármilyen módosítást hajt végre a lekérdezésen az adatfolyamban, az adatfolyam közzététele meghiúsul, ha azt észleli, hogy a lekérdezési séma nem egyezik az adatcél sémával. Ezt a beállítást akkor használja, ha nem tervezi módosítani a sémát, és a céltáblához kapcsolatokat vagy mértéket ad hozzá.
Feljegyzés
Amikor adatokat tölt be a raktárba, csak a rögzített séma támogatott.
Támogatott adatforrástípusok célhelyenként
Támogatott adattípusok tárolóhelyenként | DataflowStagingLakehouse | Azure DB (SQL) kimenete | Az Azure Data Explorer kimenete | Fabric Lakehouse (LH) kimenete | Fabric Warehouse (WH) kimenete |
---|---|---|---|---|---|
Művelet | Nem | Nem | Nem | Nem | Nem |
Bármely | Nem | Nem | Nem | Nem | Nem |
Bináris | Nem | Nem | Nem | Nem | Nem |
Pénznem | Igen | Igen | Igen | Igen | Nem |
DateTimeZone | Igen | Igen | Igen | Nem | Nem |
Időtartam | Nem | Nem | Igen | Nem | Nem |
Függvény | Nem | Nem | Nem | Nem | Nem |
Egyik sem | Nem | Nem | Nem | Nem | Nem |
Null | Nem | Nem | Nem | Nem | Nem |
Idő | Igen | Igen | Nem | Nem | Nem |
Típus | Nem | Nem | Nem | Nem | Nem |
Strukturált (Lista, Rekord, Táblázat) | Nem | Nem | Nem | Nem | Nem |
Speciális témakörök
Előkészítés használata a célhelyre való betöltés előtt
A lekérdezésfeldolgozás teljesítményének növelése érdekében a Gen2 adatfolyamokban az előkészítés használható a Fabric Compute használatával a lekérdezések végrehajtásához.
Ha a lekérdezéseken engedélyezve van az előkészítés (az alapértelmezett viselkedés), az adatok betöltve lesznek az előkészítési helyre, amely egy belső Lakehouse, amelyet csak maga az adatfolyamok érhetnek el.
Az átmeneti helyek használata javíthatja a teljesítményt bizonyos esetekben, amikor a lekérdezés sql analytics-végpontra való összecsukása gyorsabb, mint a memóriafeldolgozás során.
Amikor adatokat tölt be a Lakehouse-ba vagy más nem raktárhelyi célhelyekre, alapértelmezés szerint letiltjuk az előkészítési funkciót a teljesítmény javítása érdekében. Amikor adatokat tölt be az adatcélba, az adatok közvetlenül az adat célhelyre lesznek írva előkészítés nélkül. Ha átmeneti beállítást szeretne használni a lekérdezéshez, újra engedélyezheti.
Az előkészítés engedélyezéséhez kattintson a jobb gombbal a lekérdezésre, és engedélyezze az előkészítést az Előkészítés engedélyezése gombra kattintva. A lekérdezés ezután kékre vált.
Adatok betöltése a raktárba
Amikor adatokat tölt be a Warehouse-ba, az előkészítésre az adat célhelyre történő írási művelet előtt van szükség. Ez a követelmény javítja a teljesítményt. Jelenleg csak az adatfolyamkal megegyező munkaterületre való betöltés támogatott. Győződjön meg arról, hogy az előkészítés engedélyezve van az összes olyan lekérdezés esetében, amely betöltődik a raktárba.
Ha az előkészítés le van tiltva, és a Raktárt választja kimeneti célként, figyelmeztetés jelenik meg, amely először engedélyezi az előkészítést, mielőtt konfigurálhatja az adatcélt.
Ha már rendelkezik raktárral célhelyként, és megpróbálja letiltani az előkészítést, figyelmeztetés jelenik meg. Eltávolíthatja a raktárt célhelyként, vagy elvetheti az előkészítési műveletet.
A Lakehouse-adatok célhelyének vákuumozása
Ha a Lakehouse-t használja a Dataflow Gen2 célhelyeként a Microsoft Fabricben, elengedhetetlen a rendszeres karbantartás az optimális teljesítmény és a hatékony tárolókezelés biztosítása érdekében. Az egyik alapvető karbantartási feladat az adatok célhelyének porszívózása. Ez a folyamat segít eltávolítani azokat a régi fájlokat, amelyekre a Delta táblanaplója már nem hivatkozik, ezáltal optimalizálva a tárolási költségeket, és fenntartja az adatok integritását.
Miért fontos a porszívózás?
- Tárolási optimalizálás: A Delta-táblák idővel olyan régi fájlokat halmoznak fel, amelyekre már nincs szükség. A porszívózás segít megtisztítani ezeket a fájlokat, felszabadítani a tárterületet és csökkenteni a költségeket.
- Teljesítménybeli javulás: A szükségtelen fájlok eltávolítása növelheti a lekérdezési teljesítményt azáltal, hogy csökkenti az olvasási műveletek során vizsgálandó fájlok számát.
- Adatintegritás: Annak biztosítása, hogy csak a megfelelő fájlok maradjanak meg, segít megőrizni az adatok integritását, megakadályozva a nem véglegesített fájlokkal kapcsolatos esetleges problémákat, amelyek olvasóhibákhoz vagy táblasérüléshez vezethetnek.
Az adatok célhelyének porszívózása
A Delta-táblák Lakehouse-ban való vákuumhoz kövesse az alábbi lépéseket:
- Lépjen a Lakehouse-hoz: A Microsoft Fabric-fiókjából lépjen a kívánt Lakehouse-ra.
- Hozzáférés a táblák karbantartásához: A Lakehouse Explorerben kattintson a jobb gombbal a karbantartani kívánt táblára, vagy használja a három pontot a helyi menü eléréséhez.
- Válassza ki a karbantartási beállításokat: Válassza a Karbantartás menübejegyzést, és válassza a Vákuum lehetőséget.
- Futtassa a vákuumparancsot: Állítsa be a megőrzési küszöbértéket (az alapértelmezett érték hét nap), és futtassa a vákuumparancsot a Futtatás most lehetőség kiválasztásával.
Ajánlott eljárások
- Megőrzési időtartam: Legalább hét napos megőrzési időközt állíthat be, hogy a régi pillanatképek és a nem véglegesített fájlok ne legyenek idő előtt eltávolítva, ami megzavarhatja az egyidejű táblázatolvasókat és -írókat.
- Rendszeres karbantartás: Ütemezze a rendszeres porszívózást az adatkarbantartási rutin részeként, hogy a Delta-táblák optimalizálva és elemzésre kész állapotban maradjanak.
Ha az adatkarbantartási stratégiába beépíti a porszívózást, biztosíthatja, hogy a Lakehouse-célhely hatékony, költséghatékony és megbízható maradjon az adatfolyam-műveletekhez.
A lakehouse-i táblakarbantartással kapcsolatos részletesebb információkért tekintse meg a Delta táblakarbantartási dokumentációját.
Nullázható
Bizonyos esetekben, amikor null értékű oszlopot használ, a Power Query nem null értékűként észleli, és amikor az adat célhelyére ír, az oszloptípus nem null értékű. A frissítés során a következő hiba történik:
E104100 Couldn't refresh entity because of an issue with the mashup document MashupException.Error: DataFormat.Error: Error in replacing table's content with new data in a version: #{0}., InnerException: We can't insert null data into a non-nullable column., Underlying error: We can't insert null data into a non-nullable column. Details: Reason = DataFormat.Error;Message = We can't insert null data into a non-nullable column.; Message.Format = we can't insert null data into a non-nullable column.
A null értékű oszlopok kényszerítéséhez próbálkozzon a következő lépésekkel:
Törölje a táblát az adatcélból.
Távolítsa el az adatcélt az adatfolyamból.
Nyissa meg az adatfolyamot, és frissítse az adattípusokat a következő Power Query-kód használatával:
Table.TransformColumnTypes( #"PREVIOUS STEP", { {"COLLUMNNAME1", type nullable text}, {"COLLUMNNAME2", type nullable Int64.Type} } )
Adja hozzá az adatcélt.
Adattípusok konvertálása és skálázása
Bizonyos esetekben az adatfolyam adattípusa eltér az alábbi adatcélban támogatottaktól. Ezek az alapértelmezett átalakítások, amelyek biztosítják, hogy az adatok továbbra is elérhetők legyenek az adat célhelyen:
Cél | Adatfolyam-adattípus | Cél adattípusa |
---|---|---|
Hálóraktár | Int8.Type | Int16.Type |