Поделиться через


Корр

Возвращает новый столбец для коэффициента корреляции Pearson для col1 и col2.

Синтаксис

from pyspark.sql import functions as sf

sf.corr(col1, col2)

Параметры

Параметр Тип Description
col1 pyspark.sql.Column или имя столбца Первый столбец для вычисления корреляции.
col2 pyspark.sql.Column или имя столбца Второй столбец для вычисления корреляции.

Возвраты

pyspark.sql.Column: Коэффициент корреляции Pearson этих двух значений столбцов.

Примеры

from pyspark.sql import functions as sf
a = range(20)
b = [2 * x for x in range(20)]
df = spark.createDataFrame(zip(a, b), ["a", "b"])
df.agg(sf.corr("a", df.b)).show()
+----------+
|corr(a, b)|
+----------+
|       1.0|
+----------+