crosstab (DataFrame)

Вычисляет таблицу с парой частоты заданных столбцов. Также называется таблицей на случай непредвиденных обстоятельств. Первый столбец каждой строки будет уникальными значениями col1 , а имена столбцов — отдельными значениями col2. Имя первого столбца будет $col1_$col2. Пары, у которых нет вхождений, будут иметь ноль в качестве их счетчиков. DataFrame.crosstab и DataFrameStatFunctions.crosstab являются псевдонимами.

Синтаксис

crosstab(col1: str, col2: str)

Параметры

Параметр Тип Описание
col1 str Имя первого столбца. Отдельные элементы делают первый элемент каждой строки.
col2 str Имя второго столбца. Отдельные элементы делают имена столбцов кадра данных.

Возвраты

DataFrame: матрица частоты двух столбцов.

Примеры

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+