Compartir vía


Referencia de PySpark

En esta página se proporciona información general sobre la referencia disponible para PySpark, una API de Python para Spark. Para más información sobre PySpark, consulte PySpark en Azure Databricks.

Referencia Description
Clases principales Clases principales para trabajar con PySpark SQL, incluidos los aspectos básicos de SparkSession y DataFrame.
Sesión de Spark Punto de entrada para leer datos y ejecutar consultas SQL en aplicaciones pySpark.
Configuración Opciones de configuración en tiempo de ejecución para Spark SQL, incluida la configuración de ejecución y optimizador.
Para obtener información sobre la configuración que solo está disponible en Databricks, consulte Establecimiento de propiedades de configuración de Spark en Azure Databricks.
DataFrame Colección distribuida de datos organizados en columnas con nombre, similar a una tabla de una base de datos relacional.
Entrada/salida Métodos para leer y escribir datos en varios formatos de archivo y orígenes de datos.
Columna Operaciones para trabajar con columnas DataFrame, incluidas las transformaciones y expresiones.
Tipo de datos Tipos de datos disponibles en PySpark SQL, incluidos tipos primitivos, tipos complejos y tipos definidos por el usuario.
Fila Representa una fila de datos de un dataFrame, que proporciona acceso a valores de campo individuales.
Funciones Funciones integradas para operaciones de manipulación, transformación y agregación de datos.
Ventana Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual.
Agrupación Métodos para agrupar datos y realizar operaciones de agregación en dataframes agrupados.
Catálogo Interfaz para administrar bases de datos, tablas, funciones y otros metadatos de catálogo.
Avro Compatibilidad con la lectura y escritura de datos en formato Apache Avro.
Observación Recopila métricas y observa DataFrames durante la ejecución de consultas para la supervisión y depuración.
UDF Funciones definidas por el usuario para aplicar lógica personalizada de Python a columnas DataFrame.
UDTF Funciones de tabla definidas por el usuario que devuelven varias filas para cada fila de entrada.
VariantVal Controla los datos semiestructurados con esquema flexible, admite tipos dinámicos y estructuras anidadas.
ProtoBuf Compatibilidad con la serialización y deserialización de datos mediante el formato Búferes de protocolo.
Origen de datos de Python API para implementar orígenes de datos personalizados para leer desde sistemas externos. Para obtener información sobre orígenes de datos personalizados, consulte Orígenes de datos personalizados de PySpark.
Procesador Stateful Administra el estado a través de lotes de transmisión para operaciones complejas con estado en transmisión estructurada.