Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Zwraca nową ramkę danych partycjonowaną przez podane wyrażenia partycjonowania. Wynikowa ramka danych jest podzielona na partycje.
Składnia
repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Parametry
| Parameter | Typ | Opis |
|---|---|---|
numPartitions |
int | może być int, aby określić docelową liczbę partycji lub kolumnę. Jeśli jest to kolumna, zostanie użyta jako pierwsza kolumna partycjonowania. Jeśli nie zostanie określona, zostanie użyta domyślna liczba partycji. |
cols |
str lub Column | partycjonowanie kolumn. |
Zwroty
DataFrame: Ponownie partycjonowana ramka danych.
Examples
from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
"name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
"age", sf.col("id") - 32
)
df.repartition(10).select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 9|
# +---------+
df.repartition(7, "age").select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 6|
# +---------+