Partager via


Classe column

Colonne dans un DataFrame.

Prend en charge Spark Connect

Syntaxe

Consultez Créer des instances de colonne.

Méthodes

Méthode Description
alias(*alias, **kwargs) Retourne cette colonne alias avec un nouveau nom ou un nouveau nom (dans le cas d’expressions qui retournent plusieurs colonnes, telles que l’explosion).
asc() Retourne une expression de tri basée sur l’ordre croissant de la colonne.
asc_nulls_first() Retourne une expression de tri basée sur l’ordre croissant de la colonne et les valeurs Null retournent avant les valeurs non null.
asc_nulls_last() Retourne une expression de tri basée sur l’ordre croissant de la colonne et les valeurs Null apparaissent après les valeurs non null.
astype(dataType) Alias pour cast().
between(lowerBound, upperBound) Vérifiez si les valeurs de la colonne actuelle sont comprises entre les limites inférieures et supérieures spécifiées, inclusives.
bitwiseAND(other) Calculez le niveau de bits AND de cette expression avec une autre expression.
bitwiseOR(other) Calculez l’or au niveau du bit de cette expression avec une autre expression.
bitwiseXOR(other) Calculez le XOR au niveau du bit de cette expression avec une autre expression.
cast(dataType) Convertit la colonne en type dataType.
contains(other) Contient l’autre élément.
desc() Retourne une expression de tri basée sur l’ordre décroissant de la colonne.
desc_nulls_first() Retourne une expression de tri basée sur l’ordre décroissant de la colonne et les valeurs Null apparaissent avant les valeurs non null.
desc_nulls_last() Retourne une expression de tri basée sur l’ordre décroissant de la colonne et les valeurs Null apparaissent après les valeurs non null.
dropFields(*fieldNames) Expression qui supprime les champs dans StructType par nom.
endswith(other) La chaîne se termine par.
eqNullSafe(other) Test d’égalité sécurisé pour les valeurs Null.
getField(name) Expression qui obtient un champ par nom dans un StructType.
getItem(key) Expression qui obtient un élément à la position ordinale d’une liste ou obtient un élément par clé hors d’une dictée.
ilike(other) Expression SQL ILIKE (LIKE non sensible à la casse).
isNaN() True si l’expression actuelle est NaN.
isNotNull() True si l’expression actuelle n’est PAS null.
isNull() True si l’expression actuelle a la valeur Null.
isin(*cols) Expression booléenne évaluée à true si la valeur de cette expression est contenue par les valeurs évaluées des arguments.
like(other) SQL comme expression.
name(*alias, **kwargs) Alias pour alias().
otherwise(value) Évalue une liste de conditions et retourne une expression de résultat parmi plusieurs possibilités.
over(window) Définissez une colonne de fenêtrage.
rlike(other) Expression SQL RLIKE (LIKE avec Regex).
startswith(other) La chaîne commence par.
substr(startPos, length) Retourne une colonne qui est une sous-chaîne de la colonne.
try_cast(dataType) Il s’agit d’une version spéciale qui cast effectue la même opération, mais retourne une valeur NULL au lieu de déclencher une erreur si la méthode Invoke lève une exception.
when(condition, value) Évalue une liste de conditions et retourne une expression de résultat parmi plusieurs possibilités.
withField(fieldName, col) Expression qui ajoute/remplace un champ dans StructType par nom.

Opérateurs

La classe Column prend en charge les opérateurs Python standard pour les opérations arithmétiques, de comparaison et logiques :

  • Arithmétique : +, , *-, /, %**
  • Comparaison : ==, , !=, <=<, >,>=
  • Logique : & (AND), | (OR), ~ (NOT)

Exemples

Pour obtenir des exemples plus simples qui illustrent l’utilisation des colonnes, consultez les opérations de colonne.

Créer des instances de colonne

Sélectionnez une colonne à partir d’un DataFrame :

df = spark.createDataFrame(
    [(2, "Alice"), (5, "Bob")], ["age", "name"])

# Access by attribute
df.name
# Column<'name'>

# Access by bracket notation
df["name"]
# Column<'name'>

Créez une colonne à partir d’une expression :

df.age + 1
# Column<...>

1 / df.age
# Column<...>

Opérations de colonne de base

# Arithmetic operations
df.select(df.age + 10).show()

# Comparison operations
df.filter(df.age > 3).show()

# String operations
df.filter(df.name.startswith("A")).show()

# Null checking
df.filter(df.name.isNotNull()).show()

Logique conditionnelle

from pyspark.sql import functions as F

df.select(
    F.when(df.age < 3, "child")
     .when(df.age < 13, "kid")
     .otherwise("adult")
     .alias("age_group")
).show()

Tri

df.orderBy(df.age.desc()).show()
df.orderBy(df.age.asc_nulls_last()).show()