Наблюдать

Определите (именованные) метрики для наблюдения на кадре данных. Этот метод возвращает "наблюдаемый" кадр данных, который возвращает тот же результат, что и входные данные, со следующими гарантиями: вычислит определенные агрегаты (метрики) на всех данных, которые передаются через набор данных на этом этапе. Он сообщит о значении определенных статистических столбцов, как только мы достигаем точки завершения.

Синтаксис

observe(observation: Union["Observation", str], *exprs: Column)

Параметры

Параметр Тип Описание
observation Наблюдение или str str , чтобы указать имя или Observation экземпляр для получения метрики.
exprs колонна выражения столбцов (столбец).

Возвраты

DataFrame: наблюдаемый кадр данных.

Примечания

В observation этом Observationслучае этот метод поддерживает только пакетные запросы. Если observation это строка, этот метод работает как для пакетных, так и для потоковых запросов. Непрерывное выполнение пока не поддерживается.

Примеры

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}