Informations de référence sur PySpark

Cette page fournit une vue d’ensemble des informations de référence disponibles pour PySpark, une API Python pour Spark. Pour plus d’informations sur PySpark, consultez PySpark sur Azure Databricks.

Reference	Descriptif
Classes principales	Classes principales pour l’utilisation de PySpark SQL, notamment les notions de base de SparkSession et de DataFrame.
Spark Session	Point d’entrée pour lire des données et exécuter des requêtes SQL dans des applications PySpark.
Configuration	Options de configuration du runtime pour Spark SQL, notamment les paramètres d’exécution et d’optimiseur. Pour plus d’informations sur la configuration disponible uniquement sur Databricks, consultez Définir les propriétés de configuration Spark sur Azure Databricks.
DataFrame	Collection distribuée de données organisées en colonnes nommées, semblable à une table d’une base de données relationnelle.
Entrée/sortie	Méthodes de lecture et d’écriture de données dans différents formats de fichiers et sources de données.
colonne	Opérations d’utilisation de colonnes DataFrame, notamment des transformations et des expressions.
Types de données	Types de données disponibles dans PySpark SQL, notamment les types primitifs, les types complexes et les types définis par l’utilisateur.
Ligne	Représente une ligne de données dans un DataFrame, fournissant l’accès aux valeurs de champ individuelles.
Fonctions	Fonctions intégrées pour les opérations de manipulation, de transformation et d’agrégation des données.
fenêtre	Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.
Groupement	Méthodes de regroupement de données et d’exécution d’opérations d’agrégation sur des DataFrames groupés.
Catalogue	Interface permettant de gérer des bases de données, des tables, des fonctions et d’autres métadonnées de catalogue.
Avro	Prise en charge de la lecture et de l’écriture de données au format Apache Avro.
Observation	Collecte les métriques et observe les DataFrames pendant l’exécution de la requête pour la surveillance et le débogage.
Fonction définie par l’utilisateur	Fonctions définies par l’utilisateur pour appliquer une logique Python personnalisée aux colonnes DataFrame.
UDTF	Fonctions de table définies par l’utilisateur qui retournent plusieurs lignes pour chaque ligne d’entrée.
VariantVal	Gère les données semi-structurées avec un schéma flexible, prenant en charge les types dynamiques et les structures imbriquées.
ProtoBuf	Prise en charge de la sérialisation et de la désérialisation des données au format Protocol Buffers.
Source de données Python	API permettant d’implémenter des sources de données personnalisées à lire à partir de systèmes externes. Pour plus d’informations sur les sources de données personnalisées, consultez les sources de données personnalisées PySpark.
Processeur avec état	Gère l’état entre les lots de données en continu pour les opérations complexes avec état dans le streaming structuré.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-01-16

Partager via

Informations de référence sur PySpark

Commentaires

Ressources supplémentaires