partisi ulang

Mengembalikan DataFrame baru yang dipartisi oleh ekspresi partisi yang diberikan. DataFrame yang dihasilkan dipartisi hash.

Sintaksis

repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")

Parameter-parameternya

Parameter Tipe Deskripsi
numPartitions int dapat berupa int untuk menentukan jumlah target partisi atau Kolom. Jika berupa Kolom, kolom tersebut akan digunakan sebagai kolom pemartisian pertama. Jika tidak ditentukan, jumlah default partisi digunakan.
cols str atau Kolom kolom partisi.

Pengembalian Barang

DataFrame: DataFrame yang Dipartisi Ulang.

Examples

from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
    "name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
    "age", sf.col("id") - 32
)
df.repartition(10).select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        9|
# +---------+

df.repartition(7, "age").select(
    sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# |        0|
# ...
# |        6|
# +---------+