dropna

Vrátí nový datový rámec, který vynechá řádky s hodnotami null nebo NaN. DataFrame.dropna a DataFrameNaFunctions.drop jsou mezi sebou aliasy.

Syntaxe

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parametry

Parameter Typ Description
how str, volitelné, výchozí "any" hodnoty, které mohou být "any" nebo "all". Pokud existuje, vložte řádek, pokud obsahuje jakékoli hodnoty null. Pokud je vše, odstraňte řádek pouze v případě, že všechny jeho hodnoty mají hodnotu null.
thresh int, optional, default None Pokud je zadáno, odstraňte řádky, které mají méně než thresh hodnoty null. Tím se how parametr přepíše.
subset str, řazená kolekce členů nebo seznam, volitelné volitelný seznam názvů sloupců, které je potřeba vzít v úvahu.

Návraty

DataFrame: Datový rámec s vyloučenými pouze řádky s hodnotou null.

Příklady

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+