Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Klasa do obserwowania nazwanych metryk w ramce danych.
Metryki to wyrażenia agregacji stosowane do ramki danych, gdy są przetwarzane przez akcję. Wystąpienie obserwacji zbiera metryki podczas wykonywania pierwszej akcji. Kolejne akcje nie modyfikują metryk zwracanych przez Observation.getelement . Pobieranie metryki za pośrednictwem Observation.get bloków do momentu zakończenia pierwszej akcji i udostępnienia metryk.
Składnia
from pyspark.sql import Observation
observation = Observation(name=<name>)
Parametry
| Parameter | Typ | Opis |
|---|---|---|
name |
str, opcjonalnie | Nazwa obserwacji i metryki. Domyślnie jest to losowy ciąg UUID. |
Właściwości
| Majątek | Opis |
|---|---|
get |
Zwraca obserwowane metryki jako słownik. Czeka, aż zaobserwowany zestaw danych zakończy swoją pierwszą akcję. Dostępny jest tylko wynik pierwszej akcji. |
Notatki
Ta klasa nie obsługuje zestawów danych przesyłania strumieniowego.
Kolumny metryk muszą zawierać literał (na przykład lit(42)), lub musi zawierać jedną lub więcej funkcji agregujących (na przykład sum(a) lub sum(a + b) + avg(c) - lit(1)). Wyrażenia zawierające odwołania do kolumn ramki danych wejściowych muszą być zawsze opakowane w funkcję agregacji.
Examples
from pyspark.sql.functions import col, count, lit, max
from pyspark.sql import Observation
df = spark.createDataFrame([["Alice", 2], ["Bob", 5]], ["name", "age"])
observation = Observation("my metrics")
observed_df = df.observe(observation, count(lit(1)).alias("count"), max(col("age")))
observed_df.count()
2
observation.get
{'count': 2, 'max(age)': 5}