Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
İsteğe bağlı olarak yalnızca belirli sütunları dikkate alarak yinelenen satırların kaldırıldığı yeni bir DataFrame döndürür.
Sözdizimi
dropDuplicates(subset: Optional[List[str]] = None)
Parametreler
| Parametre | Türü | Açıklama |
|---|---|---|
subset |
sütun adları listesi, isteğe bağlı | Yinelenen karşılaştırma için kullanılacak sütunların listesi (varsayılan Tüm sütunlar). |
İadeler
DataFrame: Yinelenenler olmadan DataFrame.
Notlar
Statik bir batch DataFrame için yinelenen satırları bırakır. Akış DataFrame için tetikleyiciler genelindeki tüm verileri, yinelenen satırları bırakmak için ara durum olarak tutar. Yinelenen verilerin ne kadar geç olabileceğini sınırlamak için kullanabilirsiniz withWatermark ve sistem de durumu buna göre sınırlandıracaktır. Ayrıca, filigrandan daha eski veriler, yineleme olasılığını önlemek için bırakılır.
Örnekler
from pyspark.sql import Row
df = spark.createDataFrame([
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=10, height=80)
])
df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# |Alice| 10| 80|
# +-----+---+------+
df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# +-----+---+------+