Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En esta página se proporciona información general sobre la referencia disponible para PySpark, una API de Python para Spark. Para más información sobre PySpark, consulte PySpark en Azure Databricks.
| Referencia | Description |
|---|---|
| Clases principales | Clases principales para trabajar con PySpark SQL, incluidos los aspectos básicos de SparkSession y DataFrame. |
| Sesión de Spark | Punto de entrada para leer datos y ejecutar consultas SQL en aplicaciones pySpark. |
| Configuración | Opciones de configuración en tiempo de ejecución para Spark SQL, incluida la configuración de ejecución y optimizador. Para obtener información sobre la configuración que solo está disponible en Databricks, consulte Establecimiento de propiedades de configuración de Spark en Azure Databricks. |
| DataFrame | Colección distribuida de datos organizados en columnas con nombre, similar a una tabla de una base de datos relacional. |
| Entrada/salida | Métodos para leer y escribir datos en varios formatos de archivo y orígenes de datos. |
| Columna | Operaciones para trabajar con columnas DataFrame, incluidas las transformaciones y expresiones. |
| Tipo de datos | Tipos de datos disponibles en PySpark SQL, incluidos tipos primitivos, tipos complejos y tipos definidos por el usuario. |
| Fila | Representa una fila de datos de un dataFrame, que proporciona acceso a valores de campo individuales. |
| Funciones | Funciones integradas para operaciones de manipulación, transformación y agregación de datos. |
| Ventana | Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual. |
| Agrupación | Métodos para agrupar datos y realizar operaciones de agregación en dataframes agrupados. |
| Catálogo | Interfaz para administrar bases de datos, tablas, funciones y otros metadatos de catálogo. |
| Avro | Compatibilidad con la lectura y escritura de datos en formato Apache Avro. |
| Observación | Recopila métricas y observa DataFrames durante la ejecución de consultas para la supervisión y depuración. |
| UDF | Funciones definidas por el usuario para aplicar lógica personalizada de Python a columnas DataFrame. |
| UDTF | Funciones de tabla definidas por el usuario que devuelven varias filas para cada fila de entrada. |
| VariantVal | Controla los datos semiestructurados con esquema flexible, admite tipos dinámicos y estructuras anidadas. |
| ProtoBuf | Compatibilidad con la serialización y deserialización de datos mediante el formato Búferes de protocolo. |
| Origen de datos de Python | API para implementar orígenes de datos personalizados para leer desde sistemas externos. Para obtener información sobre orígenes de datos personalizados, consulte Orígenes de datos personalizados de PySpark. |
| Procesador Stateful | Administra el estado a través de lotes de transmisión para operaciones complejas con estado en transmisión estructurada. |