potentiële klant

Vensterfunctie: retourneert de waarde die rijen na de huidige rij is offset en default als er minder dan offset rijen na de huidige rij zijn. Een van de rijen retourneert bijvoorbeeld offset de volgende rij op een bepaald punt in de vensterpartitie.

Dit komt overeen met de LEAD-functie in SQL.

Syntaxis

from pyspark.sql import functions as sf

sf.lead(col, offset=1, default=None)

Parameterwaarden

Kenmerk	Typologie	Description
`col`	`pyspark.sql.Column` of kolomnaam	Naam van kolom of expressie.
`offset`	int, optioneel	Het aantal rijen dat moet worden uitgebreid. De standaardinstelling is 1.
`default`	optional	Standaardwaarde.

Retouren

pyspark.sql.Column: waarde na huidige rij op offsetbasis van .

Voorbeelden

Voorbeeld 1: Lead gebruiken om de volgende waarde op te halen

from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame(
    [("a", 1), ("a", 2), ("a", 3), ("b", 8), ("b", 2)], ["c1", "c2"])
df.show()

+---+---+
| c1| c2|
+---+---+
|  a|  1|
|  a|  2|
|  a|  3|
|  b|  8|
|  b|  2|
+---+---+

w = Window.partitionBy("c1").orderBy("c2")
df.withColumn("next_value", sf.lead("c2").over(w)).show()

+---+---+----------+
| c1| c2|next_value|
+---+---+----------+
|  a|  1|         2|
|  a|  2|         3|
|  a|  3|      NULL|
|  b|  2|         8|
|  b|  8|      NULL|
+---+---+----------+

Voorbeeld 2: Lead gebruiken met een standaardwaarde

from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame(
    [("a", 1), ("a", 2), ("a", 3), ("b", 8), ("b", 2)], ["c1", "c2"])
w = Window.partitionBy("c1").orderBy("c2")
df.withColumn("next_value", sf.lead("c2", 1, 0).over(w)).show()

+---+---+----------+
| c1| c2|next_value|
+---+---+----------+
|  a|  1|         2|
|  a|  2|         3|
|  a|  3|         0|
|  b|  2|         8|
|  b|  8|         0|
+---+---+----------+

Voorbeeld 3: Lead gebruiken met een offset van 2

from pyspark.sql import functions as sf
from pyspark.sql import Window
df = spark.createDataFrame(
    [("a", 1), ("a", 2), ("a", 3), ("b", 8), ("b", 2)], ["c1", "c2"])
w = Window.partitionBy("c1").orderBy("c2")
df.withColumn("next_value", sf.lead("c2", 2, -1).over(w)).show()

+---+---+----------+
| c1| c2|next_value|
+---+---+----------+
|  a|  1|         3|
|  a|  2|        -1|
|  a|  3|        -1|
|  b|  2|        -1|
|  b|  8|        -1|
+---+---+----------+

Feedback

Is deze pagina nuttig?

Last updated on 2026-02-01