Compartilhar via


filtro

Retorna uma matriz de elementos para a qual um predicado se mantém em uma determinada matriz. Dá suporte ao Spark Connect.

Para a função SQL do Databricks correspondente, consulte a função filter.

Sintaxe

from pyspark.databricks.sql import functions as dbf

dbf.filter(col=<col>, f=<f>)

Parâmetros

Parâmetro Tipo Description
col pyspark.sql.Column ou str Nome da coluna ou expressão.
f function Uma função que retorna a expressão booliana. Pode usar uma das seguintes formas: Unary (x: Column) -> Column ou Binary (x: Column, i: Column) -> Column , em que o segundo argumento é um índice baseado em 0 do elemento.

Devoluções

pyspark.sql.Column: matriz filtrada de elementos em que a função fornecida foi avaliada como True quando passada como um argumento.

Exemplos

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame(
    [(1, ["2018-09-20",  "2019-02-03", "2019-07-01", "2020-06-01"])],
    ("key", "values")
)
def after_second_quarter(x):
    return dbf.month(dbf.to_date(x)) > 6
df.select(
    dbf.filter("values", after_second_quarter).alias("after_second_quarter")
).show(truncate=False)
+------------------------+
|after_second_quarter    |
+------------------------+
|[2018-09-20, 2019-07-01]|
+------------------------+