Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
En esta página se proporciona información general sobre la referencia disponible para PySpark, una API de Python para Spark. Para más información sobre PySpark, consulte PySpark en Azure Databricks.
Tipos de datos
Para obtener una lista completa de los tipos de datos de PySpark, consulte Tipos de datos de PySpark.
Las clases
| Referencia | Description |
|---|---|
| Avro | Compatibilidad con la lectura y escritura de datos en formato Apache Avro. |
| Catálogo | Interfaz para administrar bases de datos, tablas, funciones y otros metadatos de catálogo. |
| Columna | Operaciones para trabajar con columnas DataFrame, incluidas las transformaciones y expresiones. |
| Tipo de datos | Tipos de datos disponibles en PySpark SQL, incluidos tipos primitivos, tipos complejos y tipos definidos por el usuario. |
| DataFrame | Colección distribuida de datos organizados en columnas con nombre, similar a una tabla de una base de datos relacional. |
| DataFrameNaFunctions | Funcionalidad para trabajar con datos que faltan en un dataframe. |
| DataFrameReader | Interfaz que se usa para cargar un dataframe desde sistemas de almacenamiento externos. |
| DataFrameStatFunctions | Funcionalidad de funciones estadísticas con dataframe. |
| DataFrameWriter | Interfaz que se usa para escribir un dataframe en sistemas de almacenamiento externos. |
| DataFrameWriterV2 | Interfaz usada para escribir un dataframe en almacenamiento externo (versión 2). |
| DataSource | API para implementar orígenes de datos personalizados para leer desde sistemas externos. Para obtener información sobre orígenes de datos personalizados, consulte Orígenes de datos personalizados de PySpark. |
| DataSourceArrowWriter | Clase base para los escritores de orígenes de datos que procesan datos mediante pyArrow.RecordBatch |
| DataSourceRegistration | Contenedor para el registro del origen de datos. |
| DataSourceReader | Clase base para lectores de orígenes de datos. |
| DataSourceStreamArrowWriter | Clase base para los escritores de flujos de datos que procesan los datos mediante pyArrow RecordBatch. |
| DataSourceStreamReader | Clase base para lectores de orígenes de datos de streaming. |
| DataSourceStreamWriter | Clase base para escritores de flujos de datos. |
| GroupedData | Métodos para agrupar datos y realizar operaciones de agregación en dataframes agrupados. |
| Observación | Recopila métricas y observa DataFrames durante la ejecución de consultas para la supervisión y depuración. |
| PlotAccessor | Descriptor de acceso para la funcionalidad de trazado de Tramas de datos en PySpark. |
| ProtoBuf | Compatibilidad con la serialización y deserialización de datos mediante el formato Búferes de protocolo. |
| Fila | Representa una fila de datos de un dataFrame, que proporciona acceso a valores de campo individuales. |
| RuntimeConfig | Opciones de configuración en tiempo de ejecución para Spark SQL, incluida la configuración de ejecución y optimizador. Para obtener información sobre la configuración que solo está disponible en Databricks, consulte Establecimiento de propiedades de configuración de Spark en Azure Databricks. |
| SparkSession | Punto de entrada para leer datos y ejecutar consultas SQL en aplicaciones pySpark. |
| Procesador Stateful | Administra el estado a través de lotes de transmisión para operaciones complejas con estado en transmisión estructurada. |
| UserDefinedFunction (UDF) | Funciones definidas por el usuario para aplicar lógica personalizada de Python a columnas DataFrame. |
| UDFRegistration | Contenedor para el registro de funciones definido por el usuario. Se puede acceder a esta instancia mediante spark.udf. |
| UserDefinedTableFunction (UDTF) | Funciones de tabla definidas por el usuario que devuelven varias filas para cada fila de entrada. |
| UDTFRegistration | Contenedor para el registro de funciones de tabla definidas por el usuario. Se puede acceder a esta instancia mediante spark.udtf. |
| VariantVal | Representa datos semiestructurados con esquema flexible, que admite tipos dinámicos y estructuras anidadas. |
| Ventana | Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual. |
| WindowSpec | Funciones de ventana para realizar cálculos en un conjunto de filas de tabla relacionadas con la fila actual. |
Funciones
Para obtener una lista completa de las funciones integradas disponibles, consulte Funciones de PySpark.