Partekatu honen bidez:


DataSourceRegistration

Contenedor para el registro del origen de datos.

Se puede acceder a esta instancia a través de spark.dataSource. Úselo para registrar una subclase personalizada DataSource para que se pueda hacer referencia por nombre en spark.read.format() y df.write.format().

Sintaxis

spark.dataSource.register(MyDataSource)

Methods

Método Descripción
register(dataSource) Registra un origen de datos definido por el usuario de Python. dataSource debe ser una subclase de DataSource.

Ejemplos

Registre un origen de datos personalizado y lea de él:

from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "id INT, value STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()