Referencia de PySpark

En esta página se proporciona información general sobre la referencia disponible para PySpark, una API de Python para Spark. Para más información sobre PySpark, consulte PySpark en Azure Databricks.

Referencia	Description
Clases principales	Clases principales para trabajar con PySpark SQL, incluidos los aspectos básicos de SparkSession y DataFrame.
Sesión de Spark	Punto de entrada para leer datos y ejecutar consultas SQL en aplicaciones pySpark.
Configuración	Opciones de configuración en tiempo de ejecución para Spark SQL, incluida la configuración de ejecución y optimizador. Para obtener información sobre la configuración que solo está disponible en Databricks, consulte Establecimiento de propiedades de configuración de Spark en Azure Databricks.
DataFrame	Colección distribuida de datos organizados en columnas con nombre, similar a una tabla de una base de datos relacional.
Entrada/salida	Métodos para leer y escribir datos en varios formatos de archivo y orígenes de datos.
Columna	Operaciones para trabajar con columnas DataFrame, incluidas las transformaciones y expresiones.
Tipo de datos	Tipos de datos disponibles en PySpark SQL, incluidos tipos primitivos, tipos complejos y tipos definidos por el usuario.
Fila	Representa una fila de datos de un dataFrame, que proporciona acceso a valores de campo individuales.
Funciones	Funciones integradas para operaciones de manipulación, transformación y agregación de datos.
Ventana	Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual.
Agrupación	Métodos para agrupar datos y realizar operaciones de agregación en dataframes agrupados.
Catálogo	Interfaz para administrar bases de datos, tablas, funciones y otros metadatos de catálogo.
Avro	Compatibilidad con la lectura y escritura de datos en formato Apache Avro.
Observación	Recopila métricas y observa DataFrames durante la ejecución de consultas para la supervisión y depuración.
UDF	Funciones definidas por el usuario para aplicar lógica personalizada de Python a columnas DataFrame.
UDTF	Funciones de tabla definidas por el usuario que devuelven varias filas para cada fila de entrada.
VariantVal	Controla los datos semiestructurados con esquema flexible, admite tipos dinámicos y estructuras anidadas.
ProtoBuf	Compatibilidad con la serialización y deserialización de datos mediante el formato Búferes de protocolo.
Origen de datos de Python	API para implementar orígenes de datos personalizados para leer desde sistemas externos. Para obtener información sobre orígenes de datos personalizados, consulte Orígenes de datos personalizados de PySpark.
Procesador Stateful	Administra el estado a través de lotes de transmisión para operaciones complejas con estado en transmisión estructurada.

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-01-16

Compartir vía

Referencia de PySpark

Comentarios

Recursos adicionales