kde

使用高斯内核生成内核密度估计 (KDE) 绘图。

在统计信息中,内核密度估计是一种非参数方式,用于估计随机变量的概率密度函数(PDF)。 此函数使用高斯内核,包括自动带宽确定。

Syntax

kde(bw_method, column=None, ind=None, **kwargs)

参数

参数 类型 说明
bw_method int 或 float 用于计算估算器带宽的方法。 有关详细信息,请参阅 KernelDensity PySpark。
column str 或 str 列表,可选 要用于创建 KDE 绘图的名称的列名或列表。 如果 None 为 ,则使用所有数值列(默认值)。
ind float、NumPy 数组或 int 列表(可选) 估计 PDF 的评估点。 如果 None 为 ,则使用 1000 个等距点。 如果为 NumPy 数组,则 KDE 将在这些点进行评估。 如果为整数,则使用该数量相等的点。
**kwargs optional 其他关键字参数。

退货

plotly.graph_objs.Figure

示例

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)