Informations de référence sur PySpark

Cette page fournit une vue d’ensemble des informations de référence disponibles pour PySpark, une API Python pour Spark. Pour plus d’informations sur PySpark, consultez PySpark sur Azure Databricks.

Types de données

Pour obtenir la liste complète des types de données PySpark, consultez les types de données PySpark.

Cours

Reference	Descriptif
Avro	Prise en charge de la lecture et de l’écriture de données au format Apache Avro.
Catalogue	Interface permettant de gérer des bases de données, des tables, des fonctions et d’autres métadonnées de catalogue.
colonne	Opérations d’utilisation de colonnes DataFrame, notamment des transformations et des expressions.
Types de données	Types de données disponibles dans PySpark SQL, notamment les types primitifs, les types complexes et les types définis par l’utilisateur.
DataFrame	Collection distribuée de données organisées en colonnes nommées, semblable à une table d’une base de données relationnelle.
DataFrameNaFunctions	Fonctionnalité permettant d’utiliser des données manquantes dans un DataFrame.
DataFrameReader	Interface utilisée pour charger un DataFrame à partir de systèmes de stockage externes.
DataFrameStatFunctions	Fonctionnalités pour les fonctions statistiques avec un DataFrame.
DataFrameWriter	Interface utilisée pour écrire un DataFrame dans des systèmes de stockage externes.
DataFrameWriterV2	Interface utilisée pour écrire un DataFrame dans un stockage externe (version 2).
Source de données	API permettant d’implémenter des sources de données personnalisées à lire à partir de systèmes externes. Pour plus d’informations sur les sources de données personnalisées, consultez les sources de données personnalisées PySpark.
DataSourceArrowWriter	Classe de base pour les enregistreurs de sources de données qui traitent les données à l’aide de PyArrow’s `RecordBatch`.
DataSourceRegistration	Wrapper pour l’inscription de source de données.
DataSourceReader	Classe de base pour les lecteurs de source de données.
DataSourceStreamArrowWriter	Classe de base pour les enregistreurs de flux de données qui traitent les données à l’aide de `RecordBatch`PyArrow.
DataSourceStreamReader	Classe de base pour les lecteurs de sources de données de streaming.
DataSourceStreamWriter	Classe de base pour les enregistreurs de flux de données.
GroupdData	Méthodes de regroupement de données et d’exécution d’opérations d’agrégation sur des DataFrames groupés.
Observation	Collecte les métriques et observe les DataFrames pendant l’exécution de la requête pour la surveillance et le débogage.
PlotAccessor	Accesseur pour la fonctionnalité de traçage dataFrame dans PySpark.
ProtoBuf	Prise en charge de la sérialisation et de la désérialisation des données au format Protocol Buffers.
Ligne	Représente une ligne de données dans un DataFrame, fournissant l’accès aux valeurs de champ individuelles.
RuntimeConfig	Options de configuration du runtime pour Spark SQL, notamment les paramètres d’exécution et d’optimiseur. Pour plus d’informations sur la configuration disponible uniquement sur Databricks, consultez Définir les propriétés de configuration Spark sur Azure Databricks.
SparkSession	Point d’entrée pour lire des données et exécuter des requêtes SQL dans des applications PySpark.
Processeur avec état	Gère l’état entre les lots de données en continu pour les opérations complexes avec état dans le streaming structuré.
UserDefinedFunction (UDF)	Fonctions définies par l’utilisateur pour appliquer une logique Python personnalisée aux colonnes DataFrame.
UDFRegistration	Wrapper pour l’inscription de fonction définie par l’utilisateur. Cette instance est accessible par `spark.udf`.
UserDefinedTableFunction (UDTF)	Fonctions de table définies par l’utilisateur qui retournent plusieurs lignes pour chaque ligne d’entrée.
UDTFRegistration	Wrapper pour l’inscription de la fonction table définie par l’utilisateur. Cette instance est accessible par `spark.udtf`.
VariantVal	Représente des données semi-structurées avec un schéma flexible, qui prend en charge les types dynamiques et les structures imbriquées.
fenêtre	Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.
WindowSpec	Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.

Functions

Pour obtenir la liste complète des fonctions intégrées disponibles, consultez les fonctions PySpark.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-15