Referencia de PySpark

En esta página se proporciona información general sobre la referencia disponible para PySpark, una API de Python para Spark. Para más información sobre PySpark, consulte PySpark en Azure Databricks.

Tipos de datos

Para obtener una lista completa de los tipos de datos de PySpark, consulte Tipos de datos de PySpark.

Las clases

Referencia	Description
Avro	Compatibilidad con la lectura y escritura de datos en formato Apache Avro.
Catálogo	Interfaz para administrar bases de datos, tablas, funciones y otros metadatos de catálogo.
Columna	Operaciones para trabajar con columnas DataFrame, incluidas las transformaciones y expresiones.
Tipo de datos	Tipos de datos disponibles en PySpark SQL, incluidos tipos primitivos, tipos complejos y tipos definidos por el usuario.
DataFrame	Colección distribuida de datos organizados en columnas con nombre, similar a una tabla de una base de datos relacional.
DataFrameNaFunctions	Funcionalidad para trabajar con datos que faltan en un dataframe.
DataFrameReader	Interfaz que se usa para cargar un dataframe desde sistemas de almacenamiento externos.
DataFrameStatFunctions	Funcionalidad de funciones estadísticas con dataframe.
DataFrameWriter	Interfaz que se usa para escribir un dataframe en sistemas de almacenamiento externos.
DataFrameWriterV2	Interfaz usada para escribir un dataframe en almacenamiento externo (versión 2).
DataSource	API para implementar orígenes de datos personalizados para leer desde sistemas externos. Para obtener información sobre orígenes de datos personalizados, consulte Orígenes de datos personalizados de PySpark.
DataSourceArrowWriter	Clase base para los escritores de orígenes de datos que procesan datos mediante pyArrow.`RecordBatch`
DataSourceRegistration	Contenedor para el registro del origen de datos.
DataSourceReader	Clase base para lectores de orígenes de datos.
DataSourceStreamArrowWriter	Clase base para los escritores de flujos de datos que procesan los datos mediante pyArrow `RecordBatch`.
DataSourceStreamReader	Clase base para lectores de orígenes de datos de streaming.
DataSourceStreamWriter	Clase base para escritores de flujos de datos.
GroupedData	Métodos para agrupar datos y realizar operaciones de agregación en dataframes agrupados.
Observación	Recopila métricas y observa DataFrames durante la ejecución de consultas para la supervisión y depuración.
PlotAccessor	Descriptor de acceso para la funcionalidad de trazado de Tramas de datos en PySpark.
ProtoBuf	Compatibilidad con la serialización y deserialización de datos mediante el formato Búferes de protocolo.
Fila	Representa una fila de datos de un dataFrame, que proporciona acceso a valores de campo individuales.
RuntimeConfig	Opciones de configuración en tiempo de ejecución para Spark SQL, incluida la configuración de ejecución y optimizador. Para obtener información sobre la configuración que solo está disponible en Databricks, consulte Establecimiento de propiedades de configuración de Spark en Azure Databricks.
SparkSession	Punto de entrada para leer datos y ejecutar consultas SQL en aplicaciones pySpark.
Procesador Stateful	Administra el estado a través de lotes de transmisión para operaciones complejas con estado en transmisión estructurada.
UserDefinedFunction (UDF)	Funciones definidas por el usuario para aplicar lógica personalizada de Python a columnas DataFrame.
UDFRegistration	Contenedor para el registro de funciones definido por el usuario. Se puede acceder a esta instancia mediante `spark.udf`.
UserDefinedTableFunction (UDTF)	Funciones de tabla definidas por el usuario que devuelven varias filas para cada fila de entrada.
UDTFRegistration	Contenedor para el registro de funciones de tabla definidas por el usuario. Se puede acceder a esta instancia mediante `spark.udtf`.
VariantVal	Representa datos semiestructurados con esquema flexible, que admite tipos dinámicos y estructuras anidadas.
Ventana	Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual.
WindowSpec	Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual.

Funciones

Para obtener una lista completa de las funciones integradas disponibles, consulte Funciones de PySpark.

Oharrak

Lagungarria al da orri hau?

Last updated on 2026-03-15