null 또는 NaN 값이 있는 행을 생략하는 새 DataFrame을 반환합니다.
DataFrame.dropna 는 DataFrameNaFunctions.drop 서로의 별칭입니다.
문법
dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)
매개 변수
| 매개 변수 | 유형 | 설명 |
|---|---|---|
how |
str, 선택 사항, 기본값 'any' | 'any' 또는 'all'일 수 있는 값입니다. 'any'이면 null이 포함된 행을 삭제합니다. 'all'이면 모든 값이 null인 경우에만 행을 삭제합니다. |
thresh |
int, optional, default None | 지정한 경우 null이 아닌 값보다 thresh 작은 행을 삭제합니다. 매개 변수를 how 덮어씁니다. |
subset |
str, 튜플 또는 목록, 선택 사항 | 고려할 열 이름의 선택적 목록입니다. |
Returns
DataFrame: Null만 제외된 행이 있는 DataFrame입니다.
예제
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+