Obserwacja

Klasa do obserwowania nazwanych metryk w ramce danych.

Metryki to wyrażenia agregacji stosowane do ramki danych, gdy są przetwarzane przez akcję. Wystąpienie obserwacji zbiera metryki podczas wykonywania pierwszej akcji. Kolejne akcje nie modyfikują metryk zwracanych przez Observation.getelement . Pobieranie metryki za pośrednictwem Observation.get bloków do momentu zakończenia pierwszej akcji i udostępnienia metryk.

Składnia

from pyspark.sql import Observation

observation = Observation(name=<name>)

Parametry

Parameter	Typ	Opis
`name`	str, opcjonalnie	Nazwa obserwacji i metryki. Domyślnie jest to losowy ciąg UUID.

Właściwości

Majątek	Opis
`get`	Zwraca obserwowane metryki jako słownik. Czeka, aż zaobserwowany zestaw danych zakończy swoją pierwszą akcję. Dostępny jest tylko wynik pierwszej akcji.

Notatki

Ta klasa nie obsługuje zestawów danych przesyłania strumieniowego.

Kolumny metryk muszą zawierać literał (na przykład lit(42)), lub musi zawierać jedną lub więcej funkcji agregujących (na przykład sum(a) lub sum(a + b) + avg(c) - lit(1)). Wyrażenia zawierające odwołania do kolumn ramki danych wejściowych muszą być zawsze opakowane w funkcję agregacji.

Examples

from pyspark.sql.functions import col, count, lit, max
from pyspark.sql import Observation

df = spark.createDataFrame([["Alice", 2], ["Bob", 5]], ["name", "age"])
observation = Observation("my metrics")
observed_df = df.observe(observation, count(lit(1)).alias("count"), max(col("age")))
observed_df.count()

observation.get

{'count': 2, 'max(age)': 5}

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-15