Pozorovat

Definujte (pojmenované) metriky, které chcete sledovat v datovém rámci. Tato metoda vrátí "pozorovaný" datový rámec, který vrátí stejný výsledek jako vstup s následujícími zárukami: Vypočítá definované agregace (metriky) pro všechna data, která procházejí datovou sadou v tomto okamžiku. Jakmile dosáhneme bodu dokončení, nahlásí se hodnota definovaných agregačních sloupců.

Syntaxe

observe(observation: Union["Observation", str], *exprs: Column)

Parametry

Parameter Typ Description
observation Pozorování nebo str str zadejte název nebo Observation instanci pro získání metriky.
exprs Sloupec column expressions (Column).

Návraty

DataFrame: pozorovaný datový rámec.

Poznámky

Pokud observation je Observationtato metoda, podporuje pouze dávkové dotazy. Pokud observation je řetězec, tato metoda funguje pro dávkové i streamované dotazy. Průběžné spouštění se zatím nepodporuje.

Příklady

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}