Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Mengembalikan DataFrame baru dengan baris duplikat dihapus, secara opsional hanya mempertimbangkan kolom tertentu.
Sintaksis
dropDuplicates(subset: Optional[List[str]] = None)
Parameter-parameternya
| Parameter | Tipe | Deskripsi |
|---|---|---|
subset |
daftar nama kolom, opsional | Daftar kolom yang akan digunakan untuk perbandingan duplikat (default Semua kolom). |
Pengembalian Barang
DataFrame: DataFrame tanpa duplikat.
Catatan
Untuk DataFrame batch statis, data tersebut hanya menghilangkan baris duplikat. Untuk DataFrame streaming, data akan menyimpan semua data di seluruh pemicu sebagai status menengah untuk menghilangkan baris duplikat. Anda dapat menggunakan withWatermark untuk membatasi seberapa terlambat data duplikat dan sistem akan membatasi status. Selain itu, data yang lebih lama dari marka air akan dihilangkan untuk menghindari kemungkinan duplikat.
Examples
from pyspark.sql import Row
df = spark.createDataFrame([
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=5, height=80),
Row(name='Alice', age=10, height=80)
])
df.dropDuplicates().show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# |Alice| 10| 80|
# +-----+---+------+
df.dropDuplicates(['name', 'height']).show()
# +-----+---+------+
# | name|age|height|
# +-----+---+------+
# |Alice| 5| 80|
# +-----+---+------+