Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Devuelve una nueva trama de datos particionada por las expresiones de partición especificadas. El dataframe resultante tiene particiones hash.
Sintaxis
repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
numPartitions |
int | puede ser un valor int para especificar el número de particiones de destino o una columna. Si es una columna, se usará como la primera columna de partición. Si no se especifica, se usa el número predeterminado de particiones. |
cols |
str o columna | columnas de creación de particiones. |
Devoluciones
DataFrame: DataFrame repartitioned.
Ejemplos
from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
"name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
"age", sf.col("id") - 32
)
df.repartition(10).select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 9|
# +---------+
df.repartition(7, "age").select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 6|
# +---------+