Podział

Zwraca nową ramkę danych partycjonowaną przez podane wyrażenia partycjonowania. Wynikowa ramka danych jest podzielona na partycje.

Składnia

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Parametry

Parameter Typ Opis
numPartitions int może być int, aby określić docelową liczbę partycji lub kolumnę. Jeśli jest to kolumna, zostanie użyta jako pierwsza kolumna partycjonowania. Jeśli nie zostanie określona, zostanie użyta domyślna liczba partycji.
cols str lub Column partycjonowanie kolumn.

Zwroty

DataFrame: Ponownie partycjonowana ramka danych.

Examples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+