Mengamati

Tentukan metrik (bernama) untuk diamati pada DataFrame. Metode ini mengembalikan DataFrame 'diamati' yang mengembalikan hasil yang sama dengan input, dengan jaminan berikut: Metode ini akan menghitung agregat (metrik) yang ditentukan pada semua data yang mengalir melalui Himpunan Data pada saat itu. Ini akan melaporkan nilai kolom agregat yang ditentukan segera setelah kita mencapai titik penyelesaian.

Sintaksis

observe(observation: Union["Observation", str], *exprs: Column)

Parameter-parameternya

Parameter Tipe Deskripsi
observation Pengamatan atau str str untuk menentukan nama, atau Observation instans untuk mendapatkan metrik.
exprs kolom ekspresi kolom (Kolom).

Pengembalian Barang

DataFrame: DataFrame yang diamati.

Catatan

Ketika observation adalah Observation, metode ini hanya mendukung kueri batch. Ketika observation adalah string, metode ini berfungsi untuk kueri batch dan streaming. Eksekusi berkelanjutan saat ini belum didukung.

Examples

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}