kde

Létrehoz egy kernelsűrűség-becslési (KDE) diagramot a Gauss-kernelek használatával.

A statisztikákban a kernel sűrűségének becslése nem parametrikus módszer egy véletlenszerű változó sűrűségfüggvényének (PDF) becslésére. Ez a függvény Gauss-kerneleket használ, és automatikus sávszélesség-meghatározást is tartalmaz.

Szemantika

kde(bw_method, column=None, ind=None, **kwargs)

Paraméterek

Paraméter Típus Leírás
bw_method int vagy float A becslési sávszélesség kiszámításához használt módszer. További KernelDensity információt a PySparkban talál.
column str vagy str lista, nem kötelező Oszlopnév vagy a KDE-diagram létrehozásához használandó nevek listája. Ha None (alapértelmezés) az összes numerikus oszlopot használja a rendszer.
ind lebegőpontos, NumPy-tömb vagy int lista, nem kötelező Kiértékelési pontok a becsült PDF-fájlhoz. Ha None (alapértelmezett) 1000 egyenlően elosztott pontot használ. NumPy-tömb esetén a KDE kiértékelése ezeken a pontokon történik. Egész szám esetén ez a sok egyenlő távolságú pont lesz használatban.
**kwargs optional További kulcsszóargumentumok.

Visszatérítések

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)