Informations de référence sur PySpark

Cette page fournit une vue d’ensemble des informations de référence disponibles pour PySpark, une API Python pour Spark. Pour plus d’informations sur PySpark, consultez PySpark sur Azure Databricks.

Types de données

Pour obtenir la liste complète des types de données PySpark, consultez les types de données PySpark.

Cours

Reference Descriptif
Catalogue Interface permettant de gérer des bases de données, des tables, des fonctions et d’autres métadonnées de catalogue.
colonne Opérations d’utilisation de colonnes DataFrame, notamment des transformations et des expressions.
Types de données Types de données disponibles dans PySpark SQL, notamment les types primitifs, les types complexes et les types définis par l’utilisateur.
DataFrame Collection distribuée de données organisées en colonnes nommées, semblable à une table d’une base de données relationnelle.
DataFrameNaFunctions Fonctionnalité permettant d’utiliser des données manquantes dans un DataFrame.
DataFrameReader Interface utilisée pour charger un DataFrame à partir de systèmes de stockage externes.
DataFrameStatFunctions Fonctionnalités pour les fonctions statistiques avec un DataFrame.
DataFrameWriter Interface utilisée pour écrire un DataFrame dans des systèmes de stockage externes.
DataFrameWriterV2 Interface utilisée pour écrire un DataFrame dans un stockage externe (version 2).
Source de données API permettant d’implémenter des sources de données personnalisées à lire à partir de systèmes externes. Pour plus d’informations sur les sources de données personnalisées, consultez les sources de données personnalisées PySpark.
DataSourceArrowWriter Classe de base pour les enregistreurs de sources de données qui traitent les données à l’aide de PyArrow’s RecordBatch.
DataSourceRegistration Wrapper pour l’inscription de source de données.
DataSourceReader Classe de base pour les lecteurs de source de données.
DataSourceStreamArrowWriter Classe de base pour les enregistreurs de flux de données qui traitent les données à l’aide de RecordBatchPyArrow.
DataSourceStreamReader Classe de base pour les lecteurs de sources de données de streaming.
DataSourceStreamWriter Classe de base pour les enregistreurs de flux de données.
DataSourceWriter Classe de base pour les enregistreurs de sources de données responsables de l’enregistrement des données dans une source de données personnalisée en mode batch.
DataStreamReader Interface utilisée pour charger un DataFrame de streaming à partir de systèmes de stockage externes.
DataStreamWriter Interface utilisée pour écrire un DataFrame de streaming dans des systèmes de stockage externes.
Géographie Classe pour représenter une valeur Geography dans Python.
Géométrie Classe pour représenter une valeur Geometry dans Python.
GroupdData Méthodes de regroupement de données et d’exécution d’opérations d’agrégation sur des DataFrames groupés.
InputPartition Classe de base représentant une partition d’entrée retournée par la partitions() méthode de DataSourceReader.
Observation Collecte les métriques et observe les DataFrames pendant l’exécution de la requête pour la surveillance et le débogage.
PlotAccessor Accesseur pour la fonctionnalité de traçage dataFrame dans PySpark.
ProtoBuf Prise en charge de la sérialisation et de la désérialisation des données au format Protocol Buffers.
Ligne Représente une ligne de données dans un DataFrame, fournissant l’accès aux valeurs de champ individuelles.
RuntimeConfig Options de configuration du runtime pour Spark SQL, notamment les paramètres d’exécution et d’optimiseur.
Pour plus d’informations sur la configuration disponible uniquement sur Databricks, consultez Set Spark configuration properties on Azure Databricks.
SimpleDataSourceStreamReader Classe de base pour les lecteurs de sources de données de diffusion en continu simplifiés qui lit les données et planifie simultanément le dernier décalage.
SparkSession Point d’entrée pour lire des données et exécuter des requêtes SQL dans des applications PySpark.
Processeur avec état Gère l’état entre les lots de données en continu pour les opérations complexes avec état dans le streaming structuré.
StreamingQuery Handle vers une requête qui s’exécute en continu en arrière-plan à mesure que de nouvelles données arrivent.
StreamingQueryListener Classe abstraite pour l’écoute des événements de cycle de vie des requêtes de streaming.
StreamingQueryManager Gère toutes les instances actives StreamingQuery associées à un SparkSession.
UserDefinedFunction (UDF) Fonctions définies par l’utilisateur pour appliquer une logique de Python personnalisée aux colonnes DataFrame.
UDFRegistration Wrapper pour l’inscription de fonction définie par l’utilisateur. Cette instance est accessible par spark.udf.
UserDefinedTableFunction (UDTF) Fonctions de table définies par l’utilisateur qui retournent plusieurs lignes pour chaque ligne d’entrée.
UDTFRegistration Wrapper pour l’inscription de la fonction table définie par l’utilisateur. Cette instance est accessible par spark.udtf.
VariantVal Représente des données semi-structurées avec un schéma flexible, qui prend en charge les types dynamiques et les structures imbriquées.
fenêtre Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.
WindowSpec Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active.
WriterCommitMessage Message de validation retourné par DataSourceWriter.write et renvoyé au pilote en tant que paramètre d’entrée de DataSourceWriter.commit ou DataSourceWriter.abort.

Functions

Pour obtenir la liste complète des fonctions intégrées disponibles, consultez les fonctions PySpark.