DataFrame에서 관찰할 (명명된) 메트릭을 정의합니다. 이 메서드는 입력과 동일한 결과를 반환하는 'observed' DataFrame을 반환합니다. 이 메서드는 해당 시점에 데이터 세트를 통해 흐르는 모든 데이터에 대해 정의된 집계(메트릭)를 계산합니다. 완료 지점에 도달하는 즉시 정의된 집계 열의 값을 보고합니다.
문법
observe(observation: Union["Observation", str], *exprs: Column)
매개 변수
| 매개 변수 | 유형 | 설명 |
|---|---|---|
observation |
관찰 또는 str |
str 이름을 지정하거나 메트릭을 Observation 가져올 인스턴스를 지정합니다. |
exprs |
칼럼 | 열 식(열). |
Returns
DataFrame: 관찰된 데이터 프레임입니다.
Notes
이 observation 메서드는 Observation일괄 처리 쿼리만 지원합니다. 문자열인 경우 observation 이 메서드는 일괄 처리 및 스트리밍 쿼리 모두에서 작동합니다. 연속 실행은 아직 지원되지 않습니다.
예제
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}