Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Devolve o primeiro valor de um grupo. A função, por defeito, devolve os primeiros valores que vê. Irá devolver o primeiro valor não nulo que vê quando o ignoreNulls está definido como verdadeiro. Se todos os valores forem nulos, então o valor nulo é devolvido. A função é não determinística porque os seus resultados dependem da ordem das linhas, que pode ser não determinística após um embaralhamento.
Sintaxe
from pyspark.sql import functions as sf
sf.first(col, ignorenulls=False)
Parâmetros
| Parâmetro | Tipo | Description |
|---|---|---|
col |
pyspark.sql.Column ou nome da coluna |
Coluna para buscar o primeiro valor para. |
ignorenulls |
bool | Se o primeiro valor for nulo, então procure o primeiro valor não nulo. Falso por padrão. |
Devoluções
pyspark.sql.Column: primeiro valor do grupo.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", 2), ("Bob", 5), ("Alice", None)], ("name", "age"))
df = df.orderBy(df.age)
df.groupby("name").agg(sf.first("age")).orderBy("name").show()
+-----+----------+
| name|first(age)|
+-----+----------+
|Alice| NULL|
| Bob| 5|
+-----+----------+
Para ignorar quaisquer valores nulos, defina ignorenulls para True:
df.groupby("name").agg(sf.first("age", ignorenulls=True)).orderBy("name").show()
+-----+----------+
| name|first(age)|
+-----+----------+
|Alice| 2|
| Bob| 5|
+-----+----------+