KopyalarıKaldır

İsteğe bağlı olarak yalnızca belirli sütunları dikkate alarak yinelenen satırların kaldırıldığı yeni bir DataFrame döndürür.

Sözdizimi

dropDuplicates(subset: Optional[List[str]] = None)

Parametreler

Parametre	Türü	Açıklama
`subset`	sütun adları listesi, isteğe bağlı	Yinelenen karşılaştırma için kullanılacak sütunların listesi (varsayılan Tüm sütunlar).

İadeler

DataFrame: Yinelenenler olmadan DataFrame.

Notlar

Statik bir batch DataFrame için yinelenen satırları bırakır. Akış DataFrame için tetikleyiciler genelindeki tüm verileri, yinelenen satırları bırakmak için ara durum olarak tutar. Yinelenen verilerin ne kadar geç olabileceğini sınırlamak için kullanabilirsiniz withWatermark ve sistem de durumu buna göre sınırlandıracaktır. Ayrıca, filigrandan daha eski veriler, yineleme olasılığını önlemek için bırakılır.

Örnekler

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=10, height=80)
])

df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# |Alice| 10|    80|
# +-----+---+------+

df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# +-----+---+------+

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-04-19