Поделиться через


Взорваться

Возвращает новую строку для каждого элемента в заданном массиве или карте. Использует имя col столбца по умолчанию для элементов в массиве и keyvalue для элементов в карте, если не указано иное.

Замечание

Для каждого SELECT предложения допускается только один взрыв.

Синтаксис

from pyspark.sql import functions as sf

sf.explode(col)

Параметры

Параметр Тип Description
col pyspark.sql.Column или имя столбца Целевой столбец для работы.

Возвраты

pyspark.sql.Column: одна строка на элемент массива или значение ключа карты.

Примеры

Пример 1. Взрыв столбца массива

from pyspark.sql import functions as sf
df = spark.sql('SELECT * FROM VALUES (1,ARRAY(1,2,3,NULL)), (2,ARRAY()), (3,NULL) AS t(i,a)')
df.show()
+---+---------------+
|  i|              a|
+---+---------------+
|  1|[1, 2, 3, NULL]|
|  2|             []|
|  3|           NULL|
+---+---------------+
df.select('*', sf.explode('a')).show()
+---+---------------+----+
|  i|              a| col|
+---+---------------+----+
|  1|[1, 2, 3, NULL]|   1|
|  1|[1, 2, 3, NULL]|   2|
|  1|[1, 2, 3, NULL]|   3|
|  1|[1, 2, 3, NULL]|NULL|
+---+---------------+----+

Пример 2. Взрыв столбца карты

from pyspark.sql import functions as sf
df = spark.sql('SELECT * FROM VALUES (1,MAP(1,2,3,4,5,NULL)), (2,MAP()), (3,NULL) AS t(i,m)')
df.show(truncate=False)
+---+---------------------------+
|i  |m                          |
+---+---------------------------+
|1  |{1 -> 2, 3 -> 4, 5 -> NULL}|
|2  |{}                         |
|3  |NULL                       |
+---+---------------------------+
df.select('*', sf.explode('m')).show(truncate=False)
+---+---------------------------+---+-----+
|i  |m                          |key|value|
+---+---------------------------+---+-----+
|1  |{1 -> 2, 3 -> 4, 5 -> NULL}|1  |2    |
|1  |{1 -> 2, 3 -> 4, 5 -> NULL}|3  |4    |
|1  |{1 -> 2, 3 -> 4, 5 -> NULL}|5  |NULL |
+---+---------------------------+---+-----+

Пример 3. Взрыв нескольких столбцов массива

import pyspark.sql.functions as sf
df = spark.sql('SELECT ARRAY(1,2) AS a1, ARRAY(3,4,5) AS a2')
df.select(
    '*', sf.explode('a1').alias('v1')
).select('*', sf.explode('a2').alias('v2')).show()
+------+---------+---+---+
|    a1|       a2| v1| v2|
+------+---------+---+---+
|[1, 2]|[3, 4, 5]|  1|  3|
|[1, 2]|[3, 4, 5]|  1|  4|
|[1, 2]|[3, 4, 5]|  1|  5|
|[1, 2]|[3, 4, 5]|  2|  3|
|[1, 2]|[3, 4, 5]|  2|  4|
|[1, 2]|[3, 4, 5]|  2|  5|
+------+---------+---+---+

Пример 4. Взрыв массива столбца структуры

import pyspark.sql.functions as sf
df = spark.sql('SELECT ARRAY(NAMED_STRUCT("a",1,"b",2), NAMED_STRUCT("a",3,"b",4)) AS a')
df.select(sf.explode('a').alias("s")).select("s.*").show()
+---+---+
|  a|  b|
+---+---+
|  1|  2|
|  3|  4|
+---+---+