Fontes de dados personalizadas do PySpark

As fontes de dados personalizadas do PySpark são criadas usando a API DataSource Python (PySpark), que permite ler fontes de dados personalizadas e gravar em coletores de dados personalizados no Apache Spark usando Python. Pode usar fontes de dados personalizadas do PySpark para definir ligações personalizadas a sistemas de dados e implementar funcionalidades adicionais para construir fontes de dados reutilizáveis.

Nota

As fontes de dados personalizadas do PySpark exigem o Databricks Runtime 15.4 LTS e superior, ou o ambiente sem servidor versão 2.

DataSource classe

O PySpark DataSource é uma classe base que fornece métodos para criar leitores e gravadores de dados.

Implementar a subclasse da fonte de dados

Dependendo do seu caso de uso, o seguinte deve ser implementado por qualquer subclasse para tornar uma fonte de dados legível, gravável ou ambas:

Propriedade ou Método	Descrição
`name`	Obrigatório. O nome da fonte de dados
`schema`	Obrigatório. O esquema da fonte de dados a ser lida ou gravada
`reader()`	Deve retornar um `DataSourceReader` para tornar a fonte de dados legível (lote)
`writer()`	Deve retornar a `DataSourceWriter` para tornar o coletor de dados passível de escrita (processamento em lote)
`streamReader()` ou `simpleStreamReader()`	Deve retornar um `DataSourceStreamReader` para tornar o fluxo de dados acessível (em streaming)
`streamWriter()`	Deve retornar a `DataSourceStreamWriter` para tornar o fluxo de dados passível de escrita (transmissão em fluxo contínuo)

Nota

Os DataSource, DataSourceReader, DataSourceWriter, DataSourceStreamReader, DataSourceStreamWriter definidos pelo utilizador, e os seus métodos, devem ser serializáveis. Ou seja, devem ser um dicionário ou um dicionário aninhado que contenha um tipo primitivo.

Registar a fonte de dados

Depois de implementar a interface, você deve registrá-lo, então você pode carregá-lo ou usá-lo de outra forma, como mostrado no exemplo a seguir:

# Register the data source
spark.dataSource.register(MyDataSourceClass)

# Read from a custom data source
spark.read.format("my_datasource_name").load().show()

Exemplo 1: Criar uma fonte de dados PySpark para consulta em lote

Para demonstrar os recursos do leitor PySpark DataSource, crie uma fonte de dados que gere dados de exemplo usando o faker pacote Python. Para mais informações sobre faker, consulte a documentação do Faker.

Instale o faker pacote usando o seguinte comando:

%pip install faker

Passo 1: Implementar o leitor para uma consulta em lote

Primeiro, implemente a lógica do leitor para gerar dados de exemplo. Use a biblioteca instalada faker para preencher cada campo no esquema.

class FakeDataSourceReader(DataSourceReader):

    def __init__(self, schema, options):
        self.schema: StructType = schema
        self.options = options

    def read(self, partition):
        # Library imports must be within the method.
        from faker import Faker
        fake = Faker()

        # Every value in this `self.options` dictionary is a string.
        num_rows = int(self.options.get("numRows", 3))
        for _ in range(num_rows):
            row = []
            for field in self.schema.fields:
                value = getattr(fake, field.name)()
                row.append(value)
            yield tuple(row)

Passo 2: Defina o exemplo de DataSource

De seguida, defina o seu novo PySpark DataSource como uma subclasse de DataSource com um nome, esquema e leitor. O reader() método deve ser definido para ler a partir de uma fonte de dados numa consulta por lotes.

from pyspark.sql.datasource import DataSource, DataSourceReader
from pyspark.sql.types import StructType

class FakeDataSource(DataSource):
    """
    An example data source for batch query using the `faker` library.
    """

    @classmethod
    def name(cls):
        return "fake"

    def schema(self):
        return "name string, date string, zipcode string, state string"

    def reader(self, schema: StructType):
        return FakeDataSourceReader(schema, self.options)

Etapa 3: Registrar e usar a fonte de dados de exemplo

Para usar a fonte de dados, registre-a. Por padrão, o FakeDataSource tem três linhas e o esquema inclui estes string campos: name, date, zipcode, state. O exemplo a seguir regista, carrega e produz a saída da fonte de dados de exemplo com as predefinições.

spark.dataSource.register(FakeDataSource)
spark.read.format("fake").load().show()

+-----------------+----------+-------+----------+
|             name|      date|zipcode|     state|
+-----------------+----------+-------+----------+
|Christine Sampson|1979-04-24|  79766|  Colorado|
|       Shelby Cox|2011-08-05|  24596|   Florida|
|  Amanda Robinson|2019-01-06|  57395|Washington|
+-----------------+----------+-------+----------+

Somente string campos são suportados, mas você pode especificar um esquema com quaisquer campos que correspondam aos faker campos dos provedores de pacotes para gerar dados aleatórios para teste e desenvolvimento. O exemplo a seguir carrega a fonte de dados com name e company campos:

spark.read.format("fake").schema("name string, company string").load().show()

+---------------------+--------------+
|name                 |company       |
+---------------------+--------------+
|Tanner Brennan       |Adams Group   |
|Leslie Maxwell       |Santiago Group|
|Mrs. Jacqueline Brown|Maynard Inc   |
+---------------------+--------------+

Para carregar a fonte de dados com um número personalizado de linhas, especifique a numRows opção. O exemplo a seguir especifica 5 linhas:

spark.read.format("fake").option("numRows", 5).load().show()

+--------------+----------+-------+------------+
|          name|      date|zipcode|       state|
+--------------+----------+-------+------------+
|  Pam Mitchell|1988-10-20|  23788|   Tennessee|
|Melissa Turner|1996-06-14|  30851|      Nevada|
|  Brian Ramsey|2021-08-21|  55277|  Washington|
|  Caitlin Reed|1983-06-22|  89813|Pennsylvania|
| Douglas James|2007-01-18|  46226|     Alabama|
+--------------+----------+-------+------------+

Exemplo 2: Criar uma fonte de dados do PySpark GitHub usando variantes

Para demonstrar o uso de variantes em um PySpark DataSource, este exemplo cria uma fonte de dados que lê solicitações pull do GitHub.

Nota

As variantes são suportadas com fontes de dados personalizadas do PySpark no Databricks Runtime 17.1 e superior.

Para obter informações sobre variantes, consulte Consultar dados de variantes.

Passo 1: Implemente o leitor para recuperar pull requests

Primeiro, implemente a lógica do leitor para recuperar pull requests do repositório GitHub especificado.

class GithubVariantPullRequestReader(DataSourceReader):
    def __init__(self, options):
        self.token = options.get("token")
        self.repo = options.get("path")
        if self.repo is None:
            raise Exception(f"Must specify a repo in `.load()` method.")
        # Every value in this `self.options` dictionary is a string.
        self.num_rows = int(options.get("numRows", 10))

    def read(self, partition):
        header = {
            "Accept": "application/vnd.github+json",
        }
        if self.token is not None:
            header["Authorization"] = f"Bearer {self.token}"
        url = f"https://api.github.com/repos/{self.repo}/pulls"
        response = requests.get(url, headers=header)
        response.raise_for_status()
        prs = response.json()
        for pr in prs[:self.num_rows]:
            yield Row(
                id = pr.get("number"),
                title = pr.get("title"),
                user = VariantVal.parseJson(json.dumps(pr.get("user"))),
                created_at = pr.get("created_at"),
                updated_at = pr.get("updated_at")
            )

Passo 2: Defina a GitHub DataSource

De seguida, defina o seu novo PySpark GitHub DataSource como uma subclasse de DataSource com um nome, esquema e método reader(). O esquema inclui estes campos: id, title, user, created_at, updated_at. O user campo é definido como uma variante.

import json
import requests

from pyspark.sql import Row
from pyspark.sql.datasource import DataSource, DataSourceReader
from pyspark.sql.types import VariantVal

class GithubVariantDataSource(DataSource):
    @classmethod
    def name(self):
        return "githubVariant"
    def schema(self):
        return "id int, title string, user variant, created_at string, updated_at string"
    def reader(self, schema):
        return GithubVariantPullRequestReader(self.options)

Etapa 3: Registrar e usar a fonte de dados

Para usar a fonte de dados, registre-a. O exemplo a seguir registra, carrega a fonte de dados e gera três linhas dos dados PR do repositório GitHub:

spark.dataSource.register(GithubVariantDataSource)
spark.read.format("githubVariant").option("numRows", 3).load("apache/spark").display()

+---------+-----------------------------------------------------+---------------------+----------------------+----------------------+
| id      | title                                               | user                | created_at           | updated_at           |
+---------+---------------------------------------------------- +---------------------+----------------------+----------------------+
|   51293 |[SPARK-52586][SQL] Introduce AnyTimeType             |  {"avatar_url":...} | 2025-06-26T09:20:59Z | 2025-06-26T15:22:39Z |
|   51292 |[WIP][PYTHON] Arrow UDF for aggregation              |  {"avatar_url":...} | 2025-06-26T07:52:27Z | 2025-06-26T07:52:37Z |
|   51290 |[SPARK-50686][SQL] Hash to sort aggregation fallback |  {"avatar_url":...} | 2025-06-26T06:19:58Z | 2025-06-26T06:20:07Z |
+---------+-----------------------------------------------------+---------------------+----------------------+----------------------+

Exemplo 3: Criar PySpark DataSource para streaming de leitura e gravação

Para demonstrar os recursos de leitor e gravador de fluxo do PySpark DataSource, crie uma fonte de dados de exemplo que gere duas linhas em cada microlote usando o faker pacote Python. Para mais informações sobre faker, consulte a documentação do Faker.

Instale o faker pacote usando o seguinte comando:

%pip install faker

Passo 1: Implementar o leitor de stream

Primeiro, implemente o exemplo de leitor de dados de streaming que gera duas linhas em cada microbatch. Você pode implementar DataSourceStreamReader, ou, se a fonte de dados tiver baixa taxa de transferência e não exigir particionamento, pode implementar SimpleDataSourceStreamReader. Ou simpleStreamReader()streamReader() deve ser implementado, e simpleStreamReader() só é invocado quando streamReader() não é implementado.

Implementação de DataSourceStreamReader

A instância streamReader tem um deslocamento inteiro que aumenta a 2 em cada microlote, implementada pela interface DataSourceStreamReader.

from pyspark.sql.datasource import InputPartition
from typing import Iterator, Tuple
import os
import json

class RangePartition(InputPartition):
    def __init__(self, start, end):
        self.start = start
        self.end = end

class FakeStreamReader(DataSourceStreamReader):
    def __init__(self, schema, options):
        self.current = 0

    def initialOffset(self) -> dict:
        """
        Returns the initial start offset of the reader.
        """
        return {"offset": 0}

    def latestOffset(self) -> dict:
        """
        Returns the current latest offset that the next microbatch will read to.
        """
        self.current += 2
        return {"offset": self.current}

    def partitions(self, start: dict, end: dict):
        """
        Plans the partitioning of the current microbatch defined by start and end offset. It
        needs to return a sequence of :class:`InputPartition` objects.
        """
        return [RangePartition(start["offset"], end["offset"])]

    def commit(self, end: dict):
        """
        This is invoked when the query has finished processing data before end offset. This
        can be used to clean up the resource.
        """
        pass

    def read(self, partition) -> Iterator[Tuple]:
        """
        Takes a partition as an input and reads an iterator of tuples from the data source.
        """
        start, end = partition.start, partition.end
        for i in range(start, end):
            yield (i, str(i))

Implementação do SimpleDataSourceStreamReader

A instância SimpleStreamReader é a mesma que a instância FakeStreamReader que gera duas linhas em cada lote, mas implementada com a interface SimpleDataSourceStreamReader sem particionamento.

class SimpleStreamReader(SimpleDataSourceStreamReader):
    def initialOffset(self):
        """
        Returns the initial start offset of the reader.
        """
        return {"offset": 0}

    def read(self, start: dict) -> (Iterator[Tuple], dict):
        """
        Takes start offset as an input, then returns an iterator of tuples and the start offset of the next read.
        """
        start_idx = start["offset"]
        it = iter([(i,) for i in range(start_idx, start_idx + 2)])
        return (it, {"offset": start_idx + 2})

    def readBetweenOffsets(self, start: dict, end: dict) -> Iterator[Tuple]:
        """
        Takes start and end offset as inputs, then reads an iterator of data deterministically.
        This is called when the query replays batches during restart or after a failure.
        """
        start_idx = start["offset"]
        end_idx = end["offset"]
        return iter([(i,) for i in range(start_idx, end_idx)])

    def commit(self, end):
        """
        This is invoked when the query has finished processing data before end offset. This can be used to clean up resources.
        """
        pass

Passo 2: Implementar o escritor de fluxo

A seguir, implemente o escritor de streaming. Este gravador de dados de streaming grava as informações de metadados de cada microlote em um caminho local.

from pyspark.sql.datasource import DataSourceStreamWriter, WriterCommitMessage

class SimpleCommitMessage(WriterCommitMessage):
   def __init__(self, partition_id: int, count: int):
       self.partition_id = partition_id
       self.count = count

class FakeStreamWriter(DataSourceStreamWriter):
   def __init__(self, options):
       self.options = options
       self.path = self.options.get("path")
       assert self.path is not None

   def write(self, iterator):
       """
       Writes the data and then returns the commit message for that partition. Library imports must be within the method.
       """
       from pyspark import TaskContext
       context = TaskContext.get()
       partition_id = context.partitionId()
       cnt = 0
       for row in iterator:
           cnt += 1
       return SimpleCommitMessage(partition_id=partition_id, count=cnt)

   def commit(self, messages, batchId) -> None:
       """
       Receives a sequence of :class:`WriterCommitMessage` when all write tasks have succeeded, then decides what to do with it.
       In this FakeStreamWriter, the metadata of the microbatch(number of rows and partitions) is written into a JSON file inside commit().
       """
       status = dict(num_partitions=len(messages), rows=sum(m.count for m in messages))
       with open(os.path.join(self.path, f"{batchId}.json"), "a") as file:
           file.write(json.dumps(status) + "\n")

   def abort(self, messages, batchId) -> None:
       """
       Receives a sequence of :class:`WriterCommitMessage` from successful tasks when some other tasks have failed, then decides what to do with it.
       In this FakeStreamWriter, a failure message is written into a text file inside abort().
       """
       with open(os.path.join(self.path, f"{batchId}.txt"), "w") as file:
           file.write(f"failed in batch {batchId}")

Passo 3: Defina o exemplo de DataSource

Agora defina a sua nova PySpark DataSource como uma subclasse de DataSource com um nome, esquema e métodos streamReader() e streamWriter().

from pyspark.sql.datasource import DataSource, DataSourceStreamReader, SimpleDataSourceStreamReader, DataSourceStreamWriter
from pyspark.sql.types import StructType

class FakeStreamDataSource(DataSource):
    """
    An example data source for streaming read and write using the `faker` library.
    """

    @classmethod
    def name(cls):
        return "fakestream"

    def schema(self):
        return "name string, state string"

    def streamReader(self, schema: StructType):
        return FakeStreamReader(schema, self.options)

    # If you don't need partitioning, you can implement the simpleStreamReader method instead of streamReader.
    # def simpleStreamReader(self, schema: StructType):
    #    return SimpleStreamReader()

    def streamWriter(self, schema: StructType, overwrite: bool):
        return FakeStreamWriter(self.options)

Etapa 4: Registrar e usar a fonte de dados de exemplo

Para usar a fonte de dados, registre-a. Depois de ser registado, pode utilizá-lo em consultas de streaming como origem ou destino, passando um nome curto ou um nome completo para format(). O exemplo a seguir registra a fonte de dados e, em seguida, inicia uma consulta que lê a partir da fonte de dados de exemplo e envia para o console:

spark.dataSource.register(FakeStreamDataSource)
query = spark.readStream.format("fakestream").load().writeStream.format("console").start()

Alternativamente, o seguinte código utiliza o fluxo de exemplo como sumidouro e especifica um caminho de saída:

spark.dataSource.register(FakeStreamDataSource)

# Make sure the output directory exists and is writable
output_path = "/output_path"
dbutils.fs.mkdirs(output_path)
checkpoint_path = "/output_path/checkpoint"

query = (
    spark.readStream
    .format("fakestream")
    .load()
    .writeStream
    .format("fakestream")
    .option("path", output_path)
    .option("checkpointLocation", checkpoint_path)
    .start()
)

Exemplo 4: Criar um conector de streaming Google BigQuery

O exemplo seguinte demonstra como construir um conector de streaming personalizado para o Google BigQuery (BQ) usando uma fonte de dados PySpark. O Databricks fornece um conector Spark para a ingestão em lote do BigQuery, e a Lakehouse Federation também pode ligar-se remotamente a qualquer conjunto de dados do BigQuery e extrair dados através da criação de catálogos estrangeiros, mas nenhum deles suporta totalmente fluxos de trabalho incrementais ou contínuos em streaming. Este conector permite a migração incremental de dados faseada, bem como a migração quase em tempo real a partir de tabelas BigQuery alimentadas por fontes em streaming com checkpointing persistente.

Este conector personalizado tem as seguintes características:

Compatível com Structured Streaming e Lakeflow Spark Declarative Pipelines.
Suporta rastreamento incremental de registos e ingestão contínua de streaming, e segue a semântica do Structured Streaming.
Utiliza a API BigQuery Storage com um protocolo baseado em RPC para uma transmissão de dados mais rápida e barata.
Escreve tabelas migradas diretamente para o Unity Catalog.
Gere os pontos de controlo automaticamente usando um campo incremental baseado em data ou carimbo temporal.
Suporta ingestão em lote com Trigger.AvailableNow().
Não requer armazenamento intermédio na nuvem.
Serializa a transmissão de dados do BigQuery usando o formato Arrow ou Avro.
Lida com o autoparalelismo e distribui o trabalho entre os trabalhadores do Spark com base no volume de dados.
Adequado para migração de camadas Raw e Bronze a partir do BigQuery, com suporte para migrações de camadas de Prata e Ouro usando padrões SCD Tipo 1 ou Tipo 2.

Pré-requisitos

Antes de implementar o conector personalizado, instale os pacotes necessários:

%pip install faker google.cloud google.cloud.bigquery google.cloud.bigquery_storage

Passo 1: Implementar o leitor de stream

Primeiro, implemente o leitor de dados em streaming. A DataSourceStreamReader subclasse deve implementar os seguintes métodos:

initialOffset(self) -> dict
latestOffset(self) -> dict
partitions(self, start: dict, end: dict) -> Sequence[InputPartition]
read(self, partition: InputPartition) -> Union[Iterator[Tuple], Iterator[Row]]
commit(self, end: dict) -> None
stop(self) -> None

Para detalhes sobre cada método, consulte Métodos.

import os
from pyspark.sql.datasource import DataSourceStreamReader, InputPartition
from pyspark.sql.datasource import DataSourceStreamWriter
from pyspark.sql import Row
from pyspark.sql import SparkSession
from pyspark.sql.datasource import DataSource
from pathlib import Path
from pyarrow.lib import TimestampScalar
from datetime import datetime
from typing import Iterator, Tuple, Any, Dict, List, Sequence
from google.cloud.bigquery_storage import BigQueryReadClient, ReadSession
from google.cloud import bigquery_storage
import pandas
import datetime
import uuid
import time, logging

start_time = time.time()


class RangePartition(InputPartition):
    def __init__(self, session: ReadSession, stream_idx: int):
        self.session = session
        self.stream_idx = stream_idx


class BQStreamReader(DataSourceStreamReader):

    def __init__(self, schema, options):
        self.project_id = options.get("project_id")
        self.dataset = options.get("dataset")
        self.table = options.get("table")
        self.json_auth_file = "/home/"+options.get("service_auth_json_file_name")
        self.max_parallel_conn = options.get("max_parallel_conn", 1000)
        self.incremental_checkpoint_field = options.get("incremental_checkpoint_field", "")

        self.last_offset = None

    def initialOffset(self) -> dict:
        """
        Returns the initial start offset of the reader.
        """
        from datetime import datetime
        logging.info("Inside initialOffset!!!!!")
        # self.increment_latest_vals.append(datetime.strptime('1900-01-01 23:57:12', "%Y-%m-%d %H:%M:%S"))
        self.last_offset = '1900-01-01 23:57:12'

        return {"offset": str(self.last_offset)}

    def latestOffset(self):
        """
        Returns the current latest offset that the next microbatch will read to.
        """
        from datetime import datetime
        from google.cloud import bigquery

        if (self.last_offset is None):
            self.last_offset = '1900-01-01 23:57:12'

        client = bigquery.Client.from_service_account_json(self.json_auth_file)
        # max_offset=start["offset"]
        logging.info(f"************************last_offset: {self.last_offset}***********************")
        f_sql_str = ''
        for x_str in self.incremental_checkpoint_field.strip().split(","):
            f_sql_str += f"{x_str}>'{self.last_offset}' or "
        f_sql_str = f_sql_str[:-3]
        job_query = client.query(
            f"select max({self.incremental_checkpoint_field}) from {self.project_id}.{self.dataset}.{self.table} where {f_sql_str}")
        for query in job_query.result():
            max_res = query[0]

        if (str(max_res).lower() != 'none'):
            return {"offset": str(max_res)}

        return {"offset": str(self.last_offset)}

    def partitions(self, start: dict, end: dict) -> Sequence[InputPartition]:

        """
        Plans the partitioning of the current microbatch defined by start and end offset. It
        needs to return a sequence of :class:`InputPartition` objects.
        """
        if (self.last_offset is None):
            self.last_offset = end['offset']

        os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = self.json_auth_file

        # project_id = self.auth_project_id

        client = BigQueryReadClient()

        # This example reads baby name data from the public datasets.
        table = "projects/{}/datasets/{}/tables/{}".format(
            self.project_id, self.dataset, self.table
        )
        requested_session = bigquery_storage.ReadSession()
        requested_session.table = table
        if (self.incremental_checkpoint_field != ''):
            start_offset = start["offset"]
            end_offset = end["offset"]
            f_sql_str = ''
            for x_str in self.incremental_checkpoint_field.strip().split(","):
                f_sql_str += f"({x_str}>'{start_offset}' and {x_str}<='{end_offset}') or "
            f_sql_str = f_sql_str[:-3]
            requested_session.read_options.row_restriction = f"{f_sql_str}"

        # This example leverages Apache Avro.
        requested_session.data_format = bigquery_storage.DataFormat.AVRO

        parent = "projects/{}".format(self.project_id)
        session = client.create_read_session(
            request={
                "parent": parent,
                "read_session": requested_session,
                "max_stream_count": int(self.max_parallel_conn),
            },
        )
        self.last_offset = end['offset']
        return [RangePartition(session, i) for i in range(len(session.streams))]

    def read(self, partition) -> Iterator[List]:
        """
        Takes a partition as an input and reads an iterator of tuples from the data source.
        """
        from datetime import datetime
        session = partition.session
        stream_idx = partition.stream_idx
        os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = self.json_auth_file
        client_1 = BigQueryReadClient()
        # requested_session.read_options.selected_fields = ["census_tract", "clearance_date", "clearance_status"]
        reader = client_1.read_rows(session.streams[stream_idx].name)
        reader_iter = []

        for message in reader.rows():
            reader_iter_in = []
            for k, v in message.items():
                reader_iter_in.append(v)
            # yield(reader_iter)
            reader_iter.append(reader_iter_in)
            # yield (message['hash'], message['size'], message['virtual_size'], message['version'])
        # self.increment_latest_vals.append(max_incr_val)
        return iter(reader_iter)

    def commit(self, end):

        """
        This is invoked when the query has finished processing data before end offset. This
        can be used to clean up the resource.
        """
        pass

Passo 2: Defina a Fonte de Dados

De seguida, defina a fonte de dados personalizada. A DataSource subclasse deve implementar os seguintes métodos:

name(cls) -> str
schema(self) -> Union[StructType, str]

Para detalhes sobre cada método, consulte Métodos.

from pyspark.sql.datasource import DataSource
from pyspark.sql.types import StructType
from google.cloud import bigquery

class BQStreamDataSource(DataSource):
    """
    An example data source for streaming data from a public API containing users' comments.
    """

    @classmethod
    def name(cls):
        return "bigquery-streaming"

    def schema(self):
        type_map = {'integer': 'long', 'float': 'double', 'record': 'string'}
        json_auth_file = "/home/" + self.options.get("service_auth_json_file_name")
        client = bigquery.Client.from_service_account_json(json_auth_file)
        table_ref = self.options.get("project_id") + '.' + self.options.get("dataset") + '.' + self.options.get("table")
        table = client.get_table(table_ref)
        original_schema = table.schema
        result = []
        for schema in original_schema:
            col_attr_name = schema.name
            if (schema.mode != 'REPEATED'):
                col_attr_type = type_map.get(schema.field_type.lower(), schema.field_type.lower())
            else:
                col_attr_type = f"array<{type_map.get(schema.field_type.lower(), schema.field_type.lower())}>"
            result.append(col_attr_name + " " + col_attr_type)

        return ",".join(result)
        # return "census_tract double,clearance_date string,clearance_status string"

    def streamReader(self, schema: StructType):
        return BQStreamReader(schema, self.options)

Passo 3: Configurar e iniciar a consulta de streaming

Finalmente, regista o conector, depois configura e inicia a consulta de streaming:

spark.dataSource.register(BQStreamDataSource)

# Ingests table data incrementally using the provided timestamp-based field.
# The latest value is checkpointed using offset semantics.
# Without the incremental input field, full table ingestion is performed.
# Service account JSON files must be available to every Spark executor worker
# in the /home folder using --files /home/<file_name>.json or an init script.

query = (
    spark.readStream.format("bigquery-streaming")
    .option("project_id", <bq_project_id>)
    .option("incremental_checkpoint_field", <table_incremental_ts_based_col>)
    .option("dataset", <bq_dataset_name>)
    .option("table", <bq_table_name>)
    .option("service_auth_json_file_name", <service_account_json_file_name>)
    .option("max_parallel_conn", <max_parallel_threads_to_pull_data>)  # defaults to max 1000
    .load()
)

(
    query.writeStream.trigger(processingTime="30 seconds")
    .option("checkpointLocation", "checkpoint_path")
    .foreachBatch(writeToTable)  # your target table write function
    .start()
)

Ordem de execução

A ordem de execução da função do fluxo personalizado é descrita abaixo.

Para carregar o DataFrame do fluxo Spark:

name(cls)
schema()

Para microlote (n) de um novo início de consulta ou ao reiniciar uma consulta existente (novo ou ponto de verificação existente):

partitions(end_offset, end_offset)  # loads the last saved offset from the checkpoint at query restart
latestOffset()
partitions(start_offset, end_offset)  # plans partitions and distributes to Python workers
read()  # user’s source read definition, runs on each Python worker
commit()

Para o próximo microlote (n+1) de uma consulta em execução num checkpoint existente:

latestOffset()
partitions(start_offset, end_offset)
read()
commit()

Nota

A latestOffset função orquestra pontos de controlo. Partilhe uma variável checkpoint de um tipo primitivo entre funções e devolve-a como dicionário. Por exemplo: return {"offset": str(self.last_offset)}

Resolução de Problemas

Se a saída for o seguinte erro, sua computação não suporta fontes de dados personalizadas do PySpark. Você deve usar o Databricks Runtime 15.2 ou superior.

Error: [UNSUPPORTED_FEATURE.PYTHON_DATA_SOURCE] The feature is not supported: Python data sources. SQLSTATE: 0A000

Comentários

Esta página foi útil?

Last updated on 2026-04-04

Fontes de dados personalizadas do PySpark

DataSource classe

Implementar a subclasse da fonte de dados

Registar a fonte de dados

Exemplo 1: Criar uma fonte de dados PySpark para consulta em lote

Passo 1: Implementar o leitor para uma consulta em lote

Passo 2: Defina o exemplo de DataSource

Etapa 3: Registrar e usar a fonte de dados de exemplo

Exemplo 2: Criar uma fonte de dados do PySpark GitHub usando variantes

Passo 1: Implemente o leitor para recuperar pull requests

Passo 2: Defina a GitHub DataSource

Etapa 3: Registrar e usar a fonte de dados

Exemplo 3: Criar PySpark DataSource para streaming de leitura e gravação

Passo 1: Implementar o leitor de stream

Implementação de DataSourceStreamReader

Implementação do SimpleDataSourceStreamReader

Passo 2: Implementar o escritor de fluxo

Passo 3: Defina o exemplo de DataSource

Etapa 4: Registrar e usar a fonte de dados de exemplo

Exemplo 4: Criar um conector de streaming Google BigQuery

Pré-requisitos

Passo 1: Implementar o leitor de stream

Passo 2: Defina a Fonte de Dados

Passo 3: Configurar e iniciar a consulta de streaming

Ordem de execução

Resolução de Problemas

Comentários

Recursos adicionais