Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page fournit une vue d’ensemble des informations de référence disponibles pour PySpark, une API Python pour Spark. Pour plus d’informations sur PySpark, consultez PySpark sur Azure Databricks.
Types de données
Pour obtenir la liste complète des types de données PySpark, consultez les types de données PySpark.
Cours
| Reference | Descriptif |
|---|---|
| Avro | Prise en charge de la lecture et de l’écriture de données au format Apache Avro. |
| Catalogue | Interface permettant de gérer des bases de données, des tables, des fonctions et d’autres métadonnées de catalogue. |
| colonne | Opérations d’utilisation de colonnes DataFrame, notamment des transformations et des expressions. |
| Types de données | Types de données disponibles dans PySpark SQL, notamment les types primitifs, les types complexes et les types définis par l’utilisateur. |
| DataFrame | Collection distribuée de données organisées en colonnes nommées, semblable à une table d’une base de données relationnelle. |
| DataFrameNaFunctions | Fonctionnalité permettant d’utiliser des données manquantes dans un DataFrame. |
| DataFrameReader | Interface utilisée pour charger un DataFrame à partir de systèmes de stockage externes. |
| DataFrameStatFunctions | Fonctionnalités pour les fonctions statistiques avec un DataFrame. |
| DataFrameWriter | Interface utilisée pour écrire un DataFrame dans des systèmes de stockage externes. |
| DataFrameWriterV2 | Interface utilisée pour écrire un DataFrame dans un stockage externe (version 2). |
| Source de données | API permettant d’implémenter des sources de données personnalisées à lire à partir de systèmes externes. Pour plus d’informations sur les sources de données personnalisées, consultez les sources de données personnalisées PySpark. |
| DataSourceArrowWriter | Classe de base pour les enregistreurs de sources de données qui traitent les données à l’aide de PyArrow’s RecordBatch. |
| DataSourceRegistration | Wrapper pour l’inscription de source de données. |
| DataSourceReader | Classe de base pour les lecteurs de source de données. |
| DataSourceStreamArrowWriter | Classe de base pour les enregistreurs de flux de données qui traitent les données à l’aide de RecordBatchPyArrow. |
| DataSourceStreamReader | Classe de base pour les lecteurs de sources de données de streaming. |
| DataSourceStreamWriter | Classe de base pour les enregistreurs de flux de données. |
| GroupdData | Méthodes de regroupement de données et d’exécution d’opérations d’agrégation sur des DataFrames groupés. |
| Observation | Collecte les métriques et observe les DataFrames pendant l’exécution de la requête pour la surveillance et le débogage. |
| PlotAccessor | Accesseur pour la fonctionnalité de traçage dataFrame dans PySpark. |
| ProtoBuf | Prise en charge de la sérialisation et de la désérialisation des données au format Protocol Buffers. |
| Ligne | Représente une ligne de données dans un DataFrame, fournissant l’accès aux valeurs de champ individuelles. |
| RuntimeConfig | Options de configuration du runtime pour Spark SQL, notamment les paramètres d’exécution et d’optimiseur. Pour plus d’informations sur la configuration disponible uniquement sur Databricks, consultez Définir les propriétés de configuration Spark sur Azure Databricks. |
| SparkSession | Point d’entrée pour lire des données et exécuter des requêtes SQL dans des applications PySpark. |
| Processeur avec état | Gère l’état entre les lots de données en continu pour les opérations complexes avec état dans le streaming structuré. |
| UserDefinedFunction (UDF) | Fonctions définies par l’utilisateur pour appliquer une logique Python personnalisée aux colonnes DataFrame. |
| UDFRegistration | Wrapper pour l’inscription de fonction définie par l’utilisateur. Cette instance est accessible par spark.udf. |
| UserDefinedTableFunction (UDTF) | Fonctions de table définies par l’utilisateur qui retournent plusieurs lignes pour chaque ligne d’entrée. |
| UDTFRegistration | Wrapper pour l’inscription de la fonction table définie par l’utilisateur. Cette instance est accessible par spark.udtf. |
| VariantVal | Représente des données semi-structurées avec un schéma flexible, qui prend en charge les types dynamiques et les structures imbriquées. |
| fenêtre | Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active. |
| WindowSpec | Fonctions de fenêtre pour effectuer des calculs sur un ensemble de lignes de table liées à la ligne active. |
Functions
Pour obtenir la liste complète des fonctions intégrées disponibles, consultez les fonctions PySpark.