Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Zwraca nową ramkę danych partycjonowaną przez podane wyrażenia partycjonowania. Wynikowa ramka danych jest partycjonowana według identyfikatora kolumny.
Składnia
repartitionById(numPartitions: int, *cols: "ColumnOrName")
Parametry
| Parameter | Typ | Opis |
|---|---|---|
numPartitions |
int | docelowa liczba partycji. |
cols |
str lub Column | partycjonowanie kolumn. |
Zwroty
DataFrame: Ponownie partycjonowana ramka danych.
Notatki
Należy określić co najmniej jedno wyrażenie partition-by. Jest to podobne do ponownego partycjonowania w dystrybucji, ale zachowuje kolejność wierszy w każdej partycji.
Jest to eksperymentalny interfejs API.
Examples
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
["age", "name"]
).repartitionById(2, "name").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 23|Alice| 1|
# | 18|Alice| 1|
# | 21|Alice| 1|
# | 16| Bob| 0|
# +---+-----+--------------------+