DataFrameNaFunctions sınıfı

DataFrame'de eksik verilerle çalışma işlevselliği.

Spark Connect'i destekler

Sözdizimi

DataFrame.na

Methods

Yöntem Açıklama
drop(how, thresh, subset) Null veya NaN değerlerine sahip yeni bir DataFrame atlama satırı döndürür.
fill(value, subset) Null değerleri belirtilen değerle değiştirilen yeni bir DataFrame döndürür.
replace(to_replace, value, subset) Bir değeri başka bir değerle değiştiren yeni bir DataFrame döndürür.

Örnekler

Null değer içeren satırları sil

from pyspark.sql import Row

df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
])

df.na.drop().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 10|  80.0|Alice|
+---+------+-----+

Null değerleri doldurma

df = spark.createDataFrame([
    (10, 80.5, "Alice"),
    (5, None, "Bob"),
    (None, None, "Tom")],
    schema=["age", "height", "name"])

df.na.fill({'age': 50, 'name': 'unknown'}).show()
+---+------+-------+
|age|height|   name|
+---+------+-------+
| 10|  80.5|  Alice|
|  5|  NULL|    Bob|
| 50|  NULL|unknown|
+---+------+-------+

Değerleri değiştirme

df = spark.createDataFrame([
    (10, 80, "Alice"),
    (5, None, "Bob"),
    (None, 10, "Tom")],
    schema=["age", "height", "name"])

df.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|   A|
|   5|  NULL|   B|
|NULL|    10| Tom|
+----+------+----+