dropDuplicates

Mengembalikan DataFrame baru dengan baris duplikat dihapus, secara opsional hanya mempertimbangkan kolom tertentu.

Sintaksis

dropDuplicates(subset: Optional[List[str]] = None)

Parameter-parameternya

Parameter Tipe Deskripsi
subset daftar nama kolom, opsional Daftar kolom yang akan digunakan untuk perbandingan duplikat (default Semua kolom).

Pengembalian Barang

DataFrame: DataFrame tanpa duplikat.

Catatan

Untuk DataFrame batch statis, data tersebut hanya menghilangkan baris duplikat. Untuk DataFrame streaming, data akan menyimpan semua data di seluruh pemicu sebagai status menengah untuk menghilangkan baris duplikat. Anda dapat menggunakan withWatermark untuk membatasi seberapa terlambat data duplikat dan sistem akan membatasi status. Selain itu, data yang lebih lama dari marka air akan dihilangkan untuk menghindari kemungkinan duplikat.

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=5, height=80),
    Row(name='Alice', age=10, height=80)
])

df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# |Alice| 10|    80|
# +-----+---+------+

df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice|  5|    80|
# +-----+---+------+