kde

Vygeneruje graf odhad hustoty jádra (KDE) pomocí gaussiánských jader.

Ve statistikách je odhad hustoty jádra neparametrický způsob, jak odhadnout funkci hustoty pravděpodobnosti (PDF) náhodné proměnné. Tato funkce používá Gaussian jádra a zahrnuje automatické určování šířky pásma.

Syntaxe

kde(bw_method, column=None, ind=None, **kwargs)

Parametry

Parameter Typ Description
bw_method int nebo float Metoda použitá k výpočtu šířky pásma odhadce. Další informace najdete KernelDensity v PySparku.
column str nebo list of str, optional Název sloupce nebo seznam názvů, které se mají použít k vytvoření grafu KDE. Pokud None (výchozí), použijí se všechny číselné sloupce.
ind list of float, NumPy array, or int, optional Body vyhodnocení pro odhadovaný soubor PDF. Pokud None (výchozí), použijí se 1 000 rovnoměrně rozmístěných bodů. Pokud je pole NumPy vyhodnoceno v těchto bodech kde. Pokud je celé číslo, použije se tento počet rovnoměrně rozmístěných bodů.
**kwargs volitelný Další argumenty klíčových slov

Návraty

plotly.graph_objs.Figure

Příklady

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)