DataSourceRegistration

Contenedor para el registro del origen de datos.

Se puede acceder a esta instancia a través de spark.dataSource. Úselo para registrar una subclase personalizada DataSource para que se pueda hacer referencia por nombre en spark.read.format() y df.write.format().

Sintaxis

spark.dataSource.register(MyDataSource)

Methods

Método	Descripción
`register(dataSource)`	Registra un origen de datos definido por el usuario de Python. `dataSource` debe ser una subclase de `DataSource`.

Ejemplos

Registre un origen de datos personalizado y lea de él:

from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "id INT, value STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-17