Oszlopminták használata az adatfolyamok leképezésében

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Számos leképezési adatfolyam-átalakítás lehetővé teszi, hogy a sablonoszlopokra minták alapján hivatkozzon a kemény kóddal kódolt oszlopnevek helyett. Ezt az egyezést oszlopmintáknak nevezzük. A pontos mezőnevek megkövetelése helyett a név, adattípus, stream, forrás vagy pozíció alapján definiálhat olyan mintákat, amelyek megfelelnek az oszlopoknak. Az oszlopminták két esetben hasznosak:

  • Ha a bejövő forrásmezők gyakran változnak, például a szövegfájlok oszlopainak módosítása vagy NoSQL adatbázisok esetében. Ezt a forgatókönyvet sémaeltolódásnak nevezzük.
  • Ha egy gyakori műveletet szeretne végrehajtani egy nagy oszlopcsoporton. Például minden olyan oszlopot, amelynek oszlopnevében "total" szerepel, dupla értékre szeretné helyezni.

Oszlopminták származtatott oszlopban és összesítésben

Ha oszlopmintát szeretne hozzáadni egy származtatott oszlopban, összesítésben vagy ablakátalakításban, kattintson a Hozzáadás gombra az oszloplista fölött, vagy a meglévő származtatott oszlop melletti plusz ikonra. Válassza az Oszlopminta hozzáadása lehetőséget.

Képernyőkép a plusz ikonról, amellyel oszlopmintát lehet hozzáadni.

A kifejezésszerkesztő használatával adja meg az egyeztetési feltételt. Hozzon létre egy logikai kifejezést, amely az name, type, stream, origin és position mezők alapján megfelel az oszlopoknak. A minta hatással lesz minden olyan oszlopra, elsodródott vagy definiált oszlopra, ahol a feltétel igaz értéket ad vissza.

Képernyőkép a Származtatott oszlop beállításai lapról.

A fenti oszlopminta megegyezik minden dupla típusú oszloptal, és egyezésenként egy származtatott oszlopot hoz létre. Az oszlopnév mezőként való megjelöléssel $$ minden egyező oszlop ugyanazzal a névvel frissül. Az egyes oszlopok értéke a két tizedespontra kerekített meglévő érték.

Az egyező feltétel helyességének ellenőrzéséhez ellenőrizheti a megadott oszlopok kimeneti sémáját a Vizsgálat lapon, vagy lekérheti az adatok pillanatképét az Adatok előnézete lapon.

Képernyőkép a Kimenet séma lapról.

Hierarchikus mintaegyezés

Összetett hierarchikus struktúrákon belül is létrehozhat mintaegyezést. Bontsa ki azt a szakaszt Each MoviesStruct that matches , amelyben a rendszer kérni fogja az adatfolyam minden egyes hierarchiáját. Ezután létrehozhat egyező mintákat a kiválasztott hierarchián belüli tulajdonságokhoz.

Képernyőkép a hierarchikus oszlopmintázatról.

Szerkezetek simítása

Ha az adatok összetett struktúrákkal (például tömbök, hierarchikus struktúrák és térképek) rendelkeznek, a Kibontás átalakítás használatával kibonthatja a tömböket, és denormalizálhatja az adatokat. Struktúrák és térképek esetén használja a származtatott oszlopátalakítást oszlopmintákkal az összesimított relációs táblázat hierarchiákból való létrehozásához. Használhatja a mintához hasonló oszlopmintákat, amelyek a földrajzi hierarchiát egy relációs táblaűrlapra simítják:

Képernyőkép a Származtatott oszlop lapított szerkezetéről.

Szabályalapú leképezés a kiválasztásban és a kimenetben

A forrásoszlopok leképezése és az átalakítások kiválasztásakor rögzített vagy szabályalapú leképezéseket is hozzáadhat. Egyezés a name, type, stream, origin, és position oszlopok alapján. A rögzített és szabályalapú leképezések bármilyen kombinációjával rendelkezhet. Alapértelmezés szerint az 50 oszlopnál nagyobb vetítések alapértelmezés szerint szabályalapú leképezésre kerülnek, amelyek minden oszlopon megegyeznek, és a bemeneti nevet adja ki.

Szabályalapú leképezés hozzáadásához kattintson a Leképezés hozzáadása elemre, és válassza a Szabályalapú megfeleltetés lehetőséget.

A képernyőkép a

Minden szabályalapú megfeleltetéshez két bemenet szükséges: az a feltétel, amely alapján egyezni kell, és hogy mit nevezze el az egyes megfeleltetett oszlopoknak. Mindkét érték bevitele a kifejezésszerkesztőn keresztül van megadva. A bal oldali kifejezésmezőbe írja be a logikai egyezés feltételét. A jobb oldali kifejezésmezőben adja meg, hogy a megfeleltetett oszlop mire lesz megfeleltetve.

Képernyőkép egy térképről.

Szintaxissal $$ hivatkozhat egy egyeztetett oszlop bemeneti nevére. Például ha a fenti képet vesszük alapul, tegyük fel, hogy egy felhasználó szeretné az összes olyan sztringoszlopot megtalálni, amelynek a neve rövidebb, mint hat karakter. Ha egy bejövő oszlop neve el lett nevezve test, a kifejezés $$ + '_short' átnevezi az oszlopot test_short. Ha ez az egyetlen leképezés, a rendszer minden olyan oszlopot elvet a kimeneti adatokból, amelyek nem felelnek meg a feltételnek.

A minták egyeznek a sodródott és a definiált oszlopokkal is. Ha látni szeretné, hogy mely definiált oszlopokat képezi le egy szabály, kattintson a szabály melletti szemüveg ikonra. Ellenőrizze a kimenetet az adatelőnézet használatával.

Regex-leképezés

Ha a lefelé mutató sáv ikonra kattint, megadhatja a regex-leképezési feltételt. A regex-leképezési feltétel megegyezik az összes olyan oszlopnévvel, amely megfelel a megadott regex feltételnek. Ez standard szabályalapú leképezésekkel kombinálva használható.

Képernyőkép a regex-leképezési feltételről hierarchiaszinttel és névegyezéssel.

A fenti példa egyezik a regex mintával (r) vagy bármely oszlopnévvel, amely tartalmaz egy kis 'r'-t. A normál szabályalapú leképezéshez hasonlóan az összes egyező oszlopot a jobb oldali feltételt a $$ szintaxissal módosítják.

Szabályalapú hierarchiák

Ha a definiált kivetítés hierarchiával rendelkezik, szabályalapú leképezéssel megfeleltetheti a hierarchiák almappáit. Adjon meg egy megfelelő feltételt és azt az összetett oszlopot, amelynek almappáit le szeretné képezni. A rendszer minden egyező oszlopot a jobb oldalon megadott "Name as" szabály szerint ad ki.

Képernyőkép egy szabályalapú leképezésről, amely egy hierarchiára vonatkozik.

A fenti példa az összetett oszlop aösszes almappáján megegyezik. a két alsóoszlopot tartalmaz: b és c. A kimeneti séma két oszlopot b fog tartalmazni, és c mivel a "Név mint" feltétel az $$.

Mintamegfeleltetési kifejezésértékek

  • $$ futtatás közben az egyes egyezések nevét vagy értékét fordítja le. Gondoljon úgy $$ , mint a this
  • $0 a skaláris típusok esetén futásidőben az aktuális oszlopnévvel való egyezésre fordítódik. Hierarchikus típusok $0 esetén az aktuális megfeleltethető oszlophierarchia elérési útját jelöli.
  • name az egyes bejövő oszlopok nevét jelöli
  • type az egyes bejövő oszlopok adattípusát jelöli. Az adatfolyam-típusrendszer adattípusainak listája itt található .
  • stream az egyes adatfolyamokhoz vagy a folyamat átalakításához társított nevet jelöli
  • position az adatfolyam oszlopainak sorszáma a pozícióik szerint
  • origin az az átalakítás, amelyből egy oszlop származik vagy legutóbb frissült