create_sink

A função create_sink() escreve para um serviço de streaming de eventos como o Apache, Kafka ou Hubs de Eventos do Azure ou para uma tabela Delta a partir de um pipeline declarativo. Depois de criar um sumidouro com a create_sink() função, usas o sumidouro num fluxo de adição ou fluxo de atualização para escrever dados no sumidouro. Os fluxos de anexação e atualização são os únicos tipos de fluxo suportados pela create_sink() função. Não há suporte para outros tipos de fluxo, como create_auto_cdc_flow, . Para detalhes sobre outros tipos de sumidouros nos oleodutos Lakeflow, consulte Sinks in Lakeflow pipelines.

O Delta sink suporta tabelas externas e geridas do Unity Catalog e tabelas geridas pelo metastore do Hive. Os nomes das tabelas devem ser totalmente qualificados. Por exemplo, as tabelas do Catálogo Unity devem usar um identificador de três camadas: <catalog>.<schema>.<table>. As tabelas de metastore do Hive devem usar <schema>.<table>.

Observação

A execução de uma atualização completa não remove dados dos destinos de dados. Quaisquer dados reprocessados são adicionados ao sumidouro, e os dados existentes não são alterados.
As expectativas não são suportadas com a sink API.

Sintaxe

from pyspark import pipelines as dp

dp.create_sink(name=<sink_name>, format=<format>, options=<options>)

Parâmetros

Parâmetro	Tipo	Description
`name`	`str`	Required. Uma cadeia de caracteres que identifica o coletor e é usada para fazer referência e gerenciar o coletor. Os nomes dos sinks devem ser únicos para o pipeline, incluindo todos os arquivos de código-fonte que fazem parte do pipeline.
`format`	`str`	Required. Uma cadeia de caracteres que define o formato de saída, `kafka` ou `delta`.
`options`	`dict`	Uma lista de opções de coletor, formatada como `{"key": "value"}`, onde a chave e o valor são ambas as cadeias de caracteres. Todas as opções de tempo de execução do Databricks suportadas pelos coletores Kafka e Delta são suportadas. Para ver opções do Kafka, consulte Configurar o gravador Kafka Structured Streaming. Para opções Delta, veja Usar mesas Delta Lake como pia.

Examples

from pyspark import pipelines as dp

# Create a Kafka sink
dp.create_sink(
  "my_kafka_sink",
  "kafka",
  {
    "kafka.bootstrap.servers": "host:port",
    "topic": "my_topic"
  }
)

# Create an external Delta table sink with a file path
dp.create_sink(
  "my_delta_sink",
    "delta",
    { "path": "/path/to/my/delta/table" }
)

# Create a Delta table sink using a table name
dp.create_sink(
  "my_delta_sink",
    "delta",
    { "tableName": "my_catalog.my_schema.my_table" }
)

Comentários

Esta página foi útil?

Last updated on 2026-07-10