Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Punto de entrada para programar Spark con la API Dataset y DataFrame. Se puede usar SparkSession para crear dataframes, registrar dataframes como tablas, ejecutar SQL sobre tablas, tablas de caché y leer archivos parquet.
Sintaxis
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
Propiedades
| Propiedad | Descripción |
|---|---|
version |
Versión de Spark en la que se ejecuta esta aplicación. |
conf |
Interfaz de configuración en tiempo de ejecución para Spark. |
catalog |
Interfaz a través de la cual el usuario puede crear, quitar, modificar o consultar bases de datos subyacentes, tablas, funciones, etc. |
udf |
Devuelve una UDFRegistration para el registro de UDF. |
udtf |
Devuelve un UDTFRegistration para el registro UDTF. |
dataSource |
Devuelve una clase DataSourceRegistration para el registro del origen de datos. |
profile |
Devuelve un perfil para la generación de perfiles de rendimiento y memoria. |
sparkContext |
Devuelve el sparkContext subyacente. Solo modo clásico. |
read |
Devuelve un DataFrameReader que se puede usar para leer datos como dataFrame. |
readStream |
Devuelve un DataStreamReader que se puede usar para leer flujos de datos como dataFrame de streaming. |
streams |
Devuelve un Objeto StreamingQueryManager que permite administrar todas las consultas de streaming activas. |
tvf |
Devuelve una tableValuedFunction para llamar a funciones con valores de tabla (TVF). |
Methods
| Método | Descripción |
|---|---|
createDataFrame(data, schema, samplingRatio, verifySchema) |
Crea un DataFrame a partir de un RDD, una lista, un DataFrame de pandas, un ndarray numpy o una tabla pyarrow. |
sql(sqlQuery, args, **kwargs) |
Devuelve un dataframe que representa el resultado de la consulta especificada. |
table(tableName) |
Devuelve la tabla especificada como dataframe. |
range(start, end, step, numPartitions) |
Crea un DataFrame con una sola columna LongType denominada id, que contiene elementos de un intervalo. |
newSession() |
Devuelve un nuevo SparkSession con SQLConf independiente, vistas temporales registradas y UDF, pero sparkContext compartido y caché de tablas. Solo modo clásico. |
getActiveSession() |
Devuelve la sparkSession activa para el subproceso actual. |
active() |
Devuelve el sparkSession activo o predeterminado para el subproceso actual. |
stop() |
Detiene sparkContext subyacente. |
addArtifacts(*path, pyfile, archive, file) |
Agrega artefactos a la sesión de cliente. |
interruptAll() |
Interrumpe todas las operaciones de esta sesión que se ejecutan actualmente en el servidor. |
interruptTag(tag) |
Interrumpe todas las operaciones de esta sesión con la etiqueta especificada. |
interruptOperation(op_id) |
Interrumpe una operación de esta sesión con el operationId especificado. |
addTag(tag) |
Agrega una etiqueta que se asignará a todas las operaciones iniciadas por este subproceso en esta sesión. |
removeTag(tag) |
Quita una etiqueta agregada anteriormente para las operaciones iniciadas por este subproceso. |
getTags() |
Obtiene las etiquetas establecidas actualmente para que se asignen a todas las operaciones iniciadas por este subproceso. |
clearTags() |
Borra las etiquetas de operación del subproceso actual. |
Generador
| Método | Descripción |
|---|---|
config(key, value) |
Establece una opción de configuración. Las opciones se propagan automáticamente a la configuración propia de SparkConf y SparkSession. |
master(master) |
Establece la dirección URL maestra de Spark a la que se va a conectar. |
remote(url) |
Establece la dirección URL remota de Spark para conectarse a través de Spark Connect. |
appName(name) |
Establece un nombre para la aplicación, que se mostrará en la interfaz de usuario web de Spark. |
enableHiveSupport() |
Habilita la compatibilidad con Hive, incluida la conectividad a un metastore de Hive persistente. |
getOrCreate() |
Obtiene una sparkSession existente o, si no hay ninguna existente, crea una nueva basada en las opciones establecidas en este generador. |
create() |
Crea una nueva sparkSession. |
Ejemplos
spark = (
SparkSession.builder
.master("local")
.appName("Word Count")
.config("spark.some.config.option", "some-value")
.getOrCreate()
)
spark.sql("SELECT * FROM range(10) where id > 7").show()
+---+
| id|
+---+
| 8|
| 9|
+---+
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
+-----+---+
| name|age|
+-----+---+
|Alice| 1|
+-----+---+
spark.range(1, 7, 2).show()
+---+
| id|
+---+
| 1|
| 3|
| 5|
+---+