Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Menghasilkan plot Kernel Density Estimate (KDE) menggunakan kernel Gaussian.
Dalam statistik, estimasi kepadatan kernel adalah cara non-parametrik untuk memperkirakan fungsi kepadatan probabilitas (PDF) dari variabel acak. Fungsi ini menggunakan kernel Gaussian dan mencakup penentuan bandwidth otomatis.
Sintaksis
kde(bw_method, column=None, ind=None, **kwargs)
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
bw_method |
int atau float | Metode yang digunakan untuk menghitung bandwidth estimator. Lihat KernelDensity di PySpark untuk informasi selengkapnya. |
column |
str atau daftar str, opsional | Nama kolom atau daftar nama yang akan digunakan untuk membuat plot KDE. Jika None (default), semua kolom numerik digunakan. |
ind |
daftar float, array NumPy, atau int, opsional | Titik evaluasi untuk perkiraan PDF. Jika None (default), 1000 titik berjarak sama digunakan. Jika array NumPy, KDE dievaluasi pada titik-titik tersebut. Jika bilangan bulat, banyak titik yang sama spasinya digunakan. |
**kwargs |
fakultatif | Argumen kata kunci tambahan. |
Pengembalian Barang
plotly.graph_objs.Figure
Examples
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)