DataSourceRegistration

Pembungkus untuk pendaftaran sumber data.

Instans ini dapat diakses melalui spark.dataSource. Gunakan untuk mendaftarkan subkelas kustom DataSource sehingga dapat dirujuk berdasarkan nama di spark.read.format() dan df.write.format().

Sintaksis

spark.dataSource.register(MyDataSource)

Metode

Metode Deskripsi
register(dataSource) Mendaftarkan sumber data yang ditentukan pengguna Python. dataSource harus merupakan subkelas dari DataSource.

Examples

Daftarkan sumber data kustom dan baca dari sumber data tersebut:

from pyspark.sql.datasource import DataSource, DataSourceReader

class MyDataSource(DataSource):
    @classmethod
    def name(cls):
        return "my_data_source"

    def schema(self):
        return "id INT, value STRING"

    def reader(self, schema):
        return MyDataSourceReader(schema)

class MyDataSourceReader(DataSourceReader):
    def read(self, partition):
        yield (1, "hello")
        yield (2, "world")

spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()