Oharra
Baimena behar duzu orria atzitzeko. Direktorioetan saioa has dezakezu edo haiek alda ditzakezu.
Baimena behar duzu orria atzitzeko. Direktorioak alda ditzakezu.
Contenedor para el registro del origen de datos.
Se puede acceder a esta instancia a través de spark.dataSource. Úselo para registrar una subclase personalizada DataSource para que se pueda hacer referencia por nombre en spark.read.format() y df.write.format().
Sintaxis
spark.dataSource.register(MyDataSource)
Methods
| Método | Descripción |
|---|---|
register(dataSource) |
Registra un origen de datos definido por el usuario de Python.
dataSource debe ser una subclase de DataSource. |
Ejemplos
Registre un origen de datos personalizado y lea de él:
from pyspark.sql.datasource import DataSource, DataSourceReader
class MyDataSource(DataSource):
@classmethod
def name(cls):
return "my_data_source"
def schema(self):
return "id INT, value STRING"
def reader(self, schema):
return MyDataSourceReader(schema)
class MyDataSourceReader(DataSourceReader):
def read(self, partition):
yield (1, "hello")
yield (2, "world")
spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()