데이터 원본 등록을 위한 래퍼입니다.
이 인스턴스는 .를 통해 spark.dataSource액세스할 수 있습니다. 사용자 지정 DataSource 서브클래스를 등록하는 데 사용하므로 이름 및 spark.read.format()df.write.format()이름으로 참조할 수 있습니다.
문법
spark.dataSource.register(MyDataSource)
메서드
| 메서드 | 설명 |
|---|---|
register(dataSource) |
Python 사용자 정의 데이터 원본을 등록합니다.
dataSource 는 .의 DataSource하위 클래스여야 합니다. |
예제
사용자 지정 데이터 원본을 등록하고 해당 원본에서 읽습니다.
from pyspark.sql.datasource import DataSource, DataSourceReader
class MyDataSource(DataSource):
@classmethod
def name(cls):
return "my_data_source"
def schema(self):
return "id INT, value STRING"
def reader(self, schema):
return MyDataSourceReader(schema)
class MyDataSourceReader(DataSourceReader):
def read(self, partition):
yield (1, "hello")
yield (2, "world")
spark.dataSource.register(MyDataSource)
df = spark.read.format("my_data_source").load()
df.show()