Share via


DataSourceRegistration

Een wrapper voor registratie van gegevensbronnen.

Dit exemplaar kan worden geopend via spark.dataSource. Gebruik deze om een aangepaste DataSource subklasse te registreren, zodat er naar kan worden verwezen op naam in spark.read.format() en df.write.format().

Syntaxis

spark.dataSource.register(MyDataSource)

Methods

Methode Beschrijving
register(dataSource) Registreert een door de gebruiker gedefinieerde Python-gegevensbron. dataSource moet een subklasse zijn van DataSource.

Examples

Registreer een aangepaste gegevensbron en lees ermee:

from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "id INT, value STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()