KopyalarıKaldır

İsteğe bağlı olarak yalnızca belirli sütunları dikkate alarak yinelenen satırların kaldırıldığı yeni bir DataFrame döndürür.

Sözdizimi

dropDuplicates(subset: Optional[List[str]] = None)

Parametreler

Parametre Türü Açıklama
subset sütun adları listesi, isteğe bağlı Yinelenen karşılaştırma için kullanılacak sütunların listesi (varsayılan Tüm sütunlar).

İadeler

DataFrame: Yinelenenler olmadan DataFrame.

Notlar

Statik bir batch DataFrame için yinelenen satırları bırakır. Akış DataFrame için tetikleyiciler genelindeki tüm verileri, yinelenen satırları bırakmak için ara durum olarak tutar. Yinelenen verilerin ne kadar geç olabileceğini sınırlamak için kullanabilirsiniz withWatermark ve sistem de durumu buna göre sınırlandıracaktır. Ayrıca, filigrandan daha eski veriler, yineleme olasılığını önlemek için bırakılır.

Örnekler

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=10, height=80)
])

df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# |Alice| 10|    80|
# +-----+---+------+

df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# +-----+---+------+