dropna

Возвращает новый кадр данных, опустив строки со значениями NULL или NaN. DataFrame.dropna и DataFrameNaFunctions.drop являются псевдонимами друг друга.

Синтаксис

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Параметры

Параметр Тип Описание
how str, необязательный, по умолчанию "любой" значения, которые могут быть "любой" или "все". Если значение "есть", удалите строку, если она содержит значения NULL. Если значение "все", удалите строку только в том случае, если все его значения имеют значение NULL.
thresh int, необязательный, по умолчанию None Если задано, удалите строки, которые имеют меньше значений, отличных от thresh NULL. При этом параметр перезаписывается how .
subset str, кортеж или список, необязательный необязательный список имен столбцов для рассмотрения.

Возвраты

DataFrame: DataFrame с исключенными только строками NULL.

Примеры

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+