drop (DataFrameNaFunctions)

Vrátí nové DataFrame vynechání řádků s hodnotami null nebo NaN. DataFrame.dropna a DataFrameNaFunctions.drop jsou mezi sebou aliasy.

Syntaxe

drop(how='any', thresh=None, subset=None)

Parametry

Parameter Typ Description
how str, volitelné Zda má řádek vypustit, pokud obsahuje nějaké hodnoty null, nebo pouze v případě, že všechny jeho hodnoty mají hodnotu null. Přijaté hodnoty jsou 'any' (výchozí) a 'all'. Pokud thresh je zadána, how bude ignorována.
thresh int, volitelné Pokud je zadáno, odstraňte řádky, které mají méně než thresh hodnoty null. Přepíše how.
subset str, řazená kolekce členů nebo seznam, volitelné Názvy sloupců, které je potřeba vzít v úvahu při kontrole hodnot null nebo NaN

Návraty

DataFrame

Příklady

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Odstraňte řádek, pokud obsahuje hodnotu null nebo NaN.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Odstraňte řádek pouze v případě, že jsou všechny jeho hodnoty null nebo NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Odstraňte řádky, které mají méně hodnot než thresh null a nenázvové hodnoty.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Zahoďte řádky s hodnotami null a NaN v zadaných sloupcích.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+