Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Вычисляет таблицу с парой частоты заданных столбцов. Также называется таблицей на случай непредвиденных обстоятельств. Первый столбец каждой строки будет уникальными значениями col1 , а имена столбцов — отдельными значениями col2. Имя первого столбца будет $col1_$col2. Пары, у которых нет вхождений, будут иметь ноль в качестве их счетчиков.
DataFrame.crosstab и DataFrameStatFunctions.crosstab являются псевдонимами.
Синтаксис
crosstab(col1: str, col2: str)
Параметры
| Параметр | Тип | Описание |
|---|---|---|
col1 |
str | Имя первого столбца. Отдельные элементы делают первый элемент каждой строки. |
col2 |
str | Имя второго столбца. Отдельные элементы делают имена столбцов кадра данных. |
Возвраты
DataFrame: матрица частоты двух столбцов.
Примеры
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+