Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Agrupa los datos de las columnas especificadas para optimizar el rendimiento de las consultas.
Sintaxis
clusterBy(*cols)
Parámetros
| Parámetro | Tipo | Descripción |
|---|---|---|
*cols |
str o list | Nombres de las columnas por las que se va a agrupar. |
Devoluciones
DataFrameWriter
Ejemplos
Escriba un DataFrame en un archivo Parquet con agrupación en clústeres.
import tempfile
with tempfile.TemporaryDirectory(prefix="clusterBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.clusterBy("name").mode("overwrite").format("parquet").save(d)