使用高斯内核生成内核密度估计 (KDE) 绘图。
在统计信息中,内核密度估计是一种非参数方式,用于估计随机变量的概率密度函数(PDF)。 此函数使用高斯内核,包括自动带宽确定。
Syntax
kde(bw_method, column=None, ind=None, **kwargs)
参数
| 参数 | 类型 | 说明 |
|---|---|---|
bw_method |
int 或 float | 用于计算估算器带宽的方法。 有关详细信息,请参阅 KernelDensity PySpark。 |
column |
str 或 str 列表,可选 | 要用于创建 KDE 绘图的名称的列名或列表。 如果 None 为 ,则使用所有数值列(默认值)。 |
ind |
float、NumPy 数组或 int 列表(可选) | 估计 PDF 的评估点。 如果 None 为 ,则使用 1000 个等距点。 如果为 NumPy 数组,则 KDE 将在这些点进行评估。 如果为整数,则使用该数量相等的点。 |
**kwargs |
optional | 其他关键字参数。 |
退货
plotly.graph_objs.Figure
示例
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)