Megosztás a következőn keresztül:


Expectations

Ez az oldal Python-referenciadokumentációt tartalmaz a folyamatokkal kapcsolatos elvárásokhoz.

Az elvárásdekorátorok adatminőségi követelményeket deklarálnak a folyamat során létrehozott materializált nézetekre, streamtáblákra vagy ideiglenes nézetekre.

A dp modul hat dekorátort tartalmaz az elvárások viselkedésének szabályozásához. Az alábbi táblázat azokat a dimenziókat ismerteti, amelyeken ezek a permutációk eltérnek:

Magatartás Beállítások
Szabálysértés elleni művelet
  • Adja meg a sort a céladatkészletben. A rendszer az érvényes és érvénytelen rekordok számát más adathalmaz-metrikák mellett naplózza.
  • Távolítsa el a sort, mielőtt az adatokat a céladatkészletbe írja. Az elvetett rekordok száma más adathalmaz-metrikákkal együtt van naplózva.
  • Azonnal állítsa le a frissítést. Ez az elvárás egyetlen folyamat meghibásodását okozza, és nem okozza a folyamat többi folyamatának meghiúsulását.
Az elvárások száma Egyetlen vagy több elvárás.

Több várakozási dekorátort is hozzáadhat az adathalmazokhoz, így rugalmasan szabhatja meg az adatminőségi korlátozásokat.

Ha a expect_all dekorátorokat használja, minden elvárásnak megvan a saját leírása, és részletes metrikákat jelent.

Szemantika

A várakozási dekorátorok a @dp.table(), @dp.materialized_view vagy @dp.temporary_view() dekorátor után és egy adathalmazdefiníciós függvény előtt helyezkednek el, ahogyan az alábbi példában látható.

from pyspark import pipelines as dp

@dp.table()
@dp.expect(description, constraint)
@dp.expect_or_drop(description, constraint)
@dp.expect_or_fail(description, constraint)
@dp.expect_all({description: constraint, ...})
@dp.expect_all_or_drop({description: constraint, ...})
@dp.expect_all_or_fail({description: constraint, ...})
def <function-name>():
    return (<query>)

Paraméterek

Paraméter Típus Description
description str Szükséges. A kényszert azonosító leírás. A kényszerleírásoknak egyedinek kell lenniük az egyes adathalmazokhoz.
constraint str Szükséges. A korlátozási záradék egy SQL feltételes utasítás, amit minden rekordra true vagy false értékre ki kell értékelni. A kényszer tartalmazza az érvényesítés tényleges logikáját. Ha egy rekord nem felel meg ennek a feltételnek, a várakozás aktiválódik.

A expect_all dekorátorok megkövetelik, hogy kulcs-érték párokként dict leírásokat és megkötéseket adjanak át.