Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Devuelve una nueva trama de datos particionada por las expresiones de partición especificadas. El dataframe resultante se particiona por identificador de columna.
Sintaxis
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
numPartitions |
int | número de particiones de destino. |
cols |
str o columna | columnas de creación de particiones. |
Devoluciones
DataFrame: DataFrame repartitioned.
Notas
Se debe especificar al menos una expresión de partición por . Esto es similar a la repartición en la distribución, pero conserva el orden de las filas dentro de cada partición.
Se trata de una API experimental.
Ejemplos
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+