Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
Contenedor para el registro del origen de datos.
Se puede acceder a esta instancia a través de spark.dataSource. Úselo para registrar una subclase personalizada DataSource para que se pueda hacer referencia por nombre en spark.read.format() y df.write.format().
Sintaxis
spark.dataSource.register(MyDataSource)
Methods
| Método | Descripción |
|---|---|
register(dataSource) |
Registra un origen de datos definido por el usuario de Python.
dataSource debe ser una subclase de DataSource. |
Ejemplos
Registre un origen de datos personalizado y lea de él:
from pyspark.sql.datasource import DataSource, DataSourceReader
class MyDataSource(DataSource):
@classmethod
def name(cls):
return "my_data_source"
def schema(self):
return "id INT, value STRING"
def reader(self, schema):
return MyDataSourceReader(schema)
class MyDataSourceReader(DataSourceReader):
def read(self, partition):
yield (1, "hello")
yield (2, "world")
spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()