sortBy

Sorterar utdata i varje bucket efter de angivna kolumnerna i filsystemet.

Syntax

sortBy(col, *cols)

Parameters

Parameter Type Beskrivning
col str, tuppeln eller listan Ett kolumnnamn eller en lista med namn.
*cols str, valfritt Ytterligare kolumnnamn. Måste vara tom om col är en lista.

Retur

DataFrameWriter

Exempel

Skriv en DataFrame till en sorterad bucketad tabell och läs tillbaka den.

spark.sql("DROP TABLE IF EXISTS sorted_bucketed_table")
spark.createDataFrame([
    (100, "Alice"), (120, "Alice"), (140, "Bob")],
    schema=["age", "name"]
).write.bucketBy(1, "name").sortBy("age").mode(
    "overwrite").saveAsTable("sorted_bucketed_table")

spark.read.table("sorted_bucketed_table").sort("age").show()
# +---+------------+
# |age|        name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+

spark.sql("DROP TABLE sorted_bucketed_table")