repartitionById

Zwraca nową ramkę danych partycjonowaną przez podane wyrażenia partycjonowania. Wynikowa ramka danych jest partycjonowana według identyfikatora kolumny.

Składnia

repartitionById(numPartitions: int, *cols: "ColumnOrName")

Parametry

Parameter	Typ	Opis
`numPartitions`	int	docelowa liczba partycji.
`cols`	str lub Column	partycjonowanie kolumn.

Zwroty

DataFrame: Ponownie partycjonowana ramka danych.

Notatki

Należy określić co najmniej jedno wyrażenie partition-by. Jest to podobne do ponownego partycjonowania w dystrybucji, ale zachowuje kolejność wierszy w każdej partycji.

Jest to eksperymentalny interfejs API.

Examples

from pyspark.sql import functions as sf
spark.createDataFrame(
    [(14, "Tom"), (23, "Alice"), (16, "Bob"), (18, "Alice"), (21, "Alice")],
    ["age", "name"]
).repartitionById(2, "name").select(
    "age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14|  Tom|                   0|
# | 23|Alice|                   1|
# | 18|Alice|                   1|
# | 21|Alice|                   1|
# | 16|  Bob|                   0|
# +---+-----+--------------------+

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-19