kde

Menghasilkan plot Kernel Density Estimate (KDE) menggunakan kernel Gaussian.

Dalam statistik, estimasi kepadatan kernel adalah cara non-parametrik untuk memperkirakan fungsi kepadatan probabilitas (PDF) dari variabel acak. Fungsi ini menggunakan kernel Gaussian dan mencakup penentuan bandwidth otomatis.

Sintaksis

kde(bw_method, column=None, ind=None, **kwargs)

Parameter-parameternya

Parameter Tipe Deskripsi
bw_method int atau float Metode yang digunakan untuk menghitung bandwidth estimator. Lihat KernelDensity di PySpark untuk informasi selengkapnya.
column str atau daftar str, opsional Nama kolom atau daftar nama yang akan digunakan untuk membuat plot KDE. Jika None (default), semua kolom numerik digunakan.
ind daftar float, array NumPy, atau int, opsional Titik evaluasi untuk perkiraan PDF. Jika None (default), 1000 titik berjarak sama digunakan. Jika array NumPy, KDE dievaluasi pada titik-titik tersebut. Jika bilangan bulat, banyak titik yang sama spasinya digunakan.
**kwargs fakultatif Argumen kata kunci tambahan.

Pengembalian Barang

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)