Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Sorgu performansını iyileştirmek için verileri verilen sütunlara göre kümeler.
Sözdizimi
clusterBy(*cols)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
*cols |
str veya list | Kümelenecek sütunların adları. |
İadeler
DataFrameWriter
Örnekler
Kümeleme ile bir Parquet dosyasına DataFrame yazın.
import tempfile
with tempfile.TemporaryDirectory(prefix="clusterBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.clusterBy("name").mode("overwrite").format("parquet").save(d)