Compartir por


count_if

Devuelve el número de valores TRUE para la columna.

Syntax

from pyspark.sql import functions as sf

sf.count_if(col)

Parámetros

Parámetro Tipo Description
col pyspark.sql.Column o nombre de columna Columna de destino en la que trabajar.

Devoluciones

pyspark.sql.Column: el número de TRUE valores de .col

Examples

Ejemplo 1: Contar el número de números pares en una columna numérica

from pyspark.sql import functions as sf
df = spark.createDataFrame([("a", 1), ("a", 2), ("a", 3), ("b", 8), ("b", 2)], ["c1", "c2"])
df.select(sf.count_if(sf.col('c2') % 2 == 0)).show()
+------------------------+
|count_if(((c2 % 2) = 0))|
+------------------------+
|                       3|
+------------------------+

Ejemplo 2: Contar el número de filas donde comienza una columna de cadena con una letra determinada

from pyspark.sql import functions as sf
df = spark.createDataFrame(
  [("apple",), ("banana",), ("cherry",), ("apple",), ("banana",)], ["fruit"])
df.select(sf.count_if(sf.col('fruit').startswith('a'))).show()
+------------------------------+
|count_if(startswith(fruit, a))|
+------------------------------+
|                             2|
+------------------------------+

Ejemplo 3: Contar el número de filas en las que una columna numérica es mayor que un valor determinado

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,), (5,)], ["num"])
df.select(sf.count_if(sf.col('num') > 3)).show()
+-------------------+
|count_if((num > 3))|
+-------------------+
|                  2|
+-------------------+

Ejemplo 4: Contar el número de filas donde una columna booleana es True

from pyspark.sql import functions as sf
df = spark.createDataFrame([(True,), (False,), (True,), (False,), (True,)], ["b"])
df.select(sf.count('b'), sf.count_if('b')).show()
+--------+-----------+
|count(b)|count_if(b)|
+--------+-----------+
|       5|          3|
+--------+-----------+