Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Определите (именованные) метрики для наблюдения на кадре данных. Этот метод возвращает "наблюдаемый" кадр данных, который возвращает тот же результат, что и входные данные, со следующими гарантиями: вычислит определенные агрегаты (метрики) на всех данных, которые передаются через набор данных на этом этапе. Он сообщит о значении определенных статистических столбцов, как только мы достигаем точки завершения.
Синтаксис
observe(observation: Union["Observation", str], *exprs: Column)
Параметры
| Параметр | Тип | Описание |
|---|---|---|
observation |
Наблюдение или str |
str , чтобы указать имя или Observation экземпляр для получения метрики. |
exprs |
колонна | выражения столбцов (столбец). |
Возвраты
DataFrame: наблюдаемый кадр данных.
Примечания
В observation этом Observationслучае этот метод поддерживает только пакетные запросы. Если observation это строка, этот метод работает как для пакетных, так и для потоковых запросов. Непрерывное выполнение пока не поддерживается.
Примеры
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}