Partager via


Classe DataFrameNaFunctions

Fonctionnalité permettant d’utiliser des données manquantes dans un DataFrame.

Prend en charge Spark Connect

Syntaxe

DataFrame.na

Méthodes

Méthode Description
drop(how, thresh, subset) Retourne un nouveau DataFrame omettant des lignes avec des valeurs Null ou NaN.
fill(value, subset) Retourne un nouveau DataFrame avec des valeurs Null remplacées par la valeur spécifiée.
replace(to_replace, value, subset) Retourne un nouveau DataFrame en remplaçant une valeur par une autre valeur.

Exemples

Supprimer des lignes avec des valeurs Null

from pyspark.sql import Row

df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
])

df.na.drop().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 10|  80.0|Alice|
+---+------+-----+

Remplir les valeurs Null

df = spark.createDataFrame([
    (10, 80.5, "Alice"),
    (5, None, "Bob"),
    (None, None, "Tom")],
    schema=["age", "height", "name"])

df.na.fill({'age': 50, 'name': 'unknown'}).show()
+---+------+-------+
|age|height|   name|
+---+------+-------+
| 10|  80.5|  Alice|
|  5|  NULL|    Bob|
| 50|  NULL|unknown|
+---+------+-------+

Remplacer des valeurs

df = spark.createDataFrame([
    (10, 80, "Alice"),
    (5, None, "Bob"),
    (None, 10, "Tom")],
    schema=["age", "height", "name"])

df.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
+----+------+----+
| age|height|name|
+----+------+----+
|  10|    80|   A|
|   5|  NULL|   B|
|NULL|    10| Tom|
+----+------+----+