Partager via


Informations de référence sur PySpark

Cette page fournit une vue d’ensemble des informations de référence disponibles pour PySpark, une API Python pour Spark. Pour plus d’informations sur PySpark, consultez PySpark sur Azure Databricks.

Reference Descriptif
Classes principales Classes principales pour l’utilisation de PySpark SQL, notamment les notions de base de SparkSession et de DataFrame.
Spark Session Point d’entrée pour lire des données et exécuter des requêtes SQL dans des applications PySpark.
Configuration Options de configuration du runtime pour Spark SQL, notamment les paramètres d’exécution et d’optimiseur.
Pour plus d’informations sur la configuration disponible uniquement sur Databricks, consultez Définir les propriétés de configuration Spark sur Azure Databricks.
DataFrame Collection distribuée de données organisées en colonnes nommées, semblable à une table d’une base de données relationnelle.
Entrée/sortie Méthodes de lecture et d’écriture de données dans différents formats de fichiers et sources de données.
colonne Opérations d’utilisation de colonnes DataFrame, notamment des transformations et des expressions.
Types de données Types de données disponibles dans PySpark SQL, notamment les types primitifs, les types complexes et les types définis par l’utilisateur.
Ligne Représente une ligne de données dans un DataFrame, fournissant l’accès aux valeurs de champ individuelles.
Fonctions Fonctions intégrées pour les opérations de manipulation, de transformation et d’agrégation des données.
fenêtre Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.
Groupement Méthodes de regroupement de données et d’exécution d’opérations d’agrégation sur des DataFrames groupés.
Catalogue Interface permettant de gérer des bases de données, des tables, des fonctions et d’autres métadonnées de catalogue.
Avro Prise en charge de la lecture et de l’écriture de données au format Apache Avro.
Observation Collecte les métriques et observe les DataFrames pendant l’exécution de la requête pour la surveillance et le débogage.
Fonction définie par l’utilisateur Fonctions définies par l’utilisateur pour appliquer une logique Python personnalisée aux colonnes DataFrame.
UDTF Fonctions de table définies par l’utilisateur qui retournent plusieurs lignes pour chaque ligne d’entrée.
VariantVal Gère les données semi-structurées avec un schéma flexible, prenant en charge les types dynamiques et les structures imbriquées.
ProtoBuf Prise en charge de la sérialisation et de la désérialisation des données au format Protocol Buffers.
Source de données Python API permettant d’implémenter des sources de données personnalisées à lire à partir de systèmes externes. Pour plus d’informations sur les sources de données personnalisées, consultez les sources de données personnalisées PySpark.
Processeur avec état Gère l’état entre les lots de données en continu pour les opérations complexes avec état dans le streaming structuré.