Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Funkce pro práci s chybějícími daty v datovém rámci
Podporuje Spark Connect.
Syntaxe
DataFrame.na
Methods
| Metoda | Description |
|---|---|
drop(how, thresh, subset) |
Vrátí nový datový rámec, který vynechá řádky s hodnotami null nebo NaN. |
fill(value, subset) |
Vrátí nový datový rámec s hodnotami null nahrazenými zadanou hodnotou. |
replace(to_replace, value, subset) |
Vrátí nový datový rámec, který nahradí hodnotu jinou hodnotou. |
Příklady
Odstranit řádky s prázdnými hodnotami
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=None, name="Bob"),
Row(age=None, height=None, name="Tom"),
])
df.na.drop().show()
+---+------+-----+
|age|height| name|
+---+------+-----+
| 10| 80.0|Alice|
+---+------+-----+
Vyplnění hodnot null
df = spark.createDataFrame([
(10, 80.5, "Alice"),
(5, None, "Bob"),
(None, None, "Tom")],
schema=["age", "height", "name"])
df.na.fill({'age': 50, 'name': 'unknown'}).show()
+---+------+-------+
|age|height| name|
+---+------+-------+
| 10| 80.5| Alice|
| 5| NULL| Bob|
| 50| NULL|unknown|
+---+------+-------+
Nahrazení hodnot
df = spark.createDataFrame([
(10, 80, "Alice"),
(5, None, "Bob"),
(None, 10, "Tom")],
schema=["age", "height", "name"])
df.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
+----+------+----+
| age|height|name|
+----+------+----+
| 10| 80| A|
| 5| NULL| B|
|NULL| 10| Tom|
+----+------+----+