CREATE STREAMING TABLE (gasodutos)

Uma tabela de streaming é uma tabela com suporte para streaming ou processamento incremental de dados. As tabelas de streaming são apoiadas por pipelines. Sempre que uma tabela de streaming é atualizada, os dados adicionados às tabelas de origem são acrescentados à tabela de streaming. Você pode atualizar tabelas de streaming manualmente ou de forma agendada.

Para saber mais sobre como executar ou agendar atualizações, consulte Executar uma atualização de pipeline.

Sintaxe

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parâmetros

REFRESH

Se especificado, cria a tabela ou atualiza uma tabela existente e o seu conteúdo.
PRIVADO

Cria uma tabela de streaming privada.
- Eles não são adicionados ao catálogo e só são acessíveis na pipeline onde são definidos.
- Eles podem ter o mesmo nome de um objeto existente no catálogo. Dentro do pipeline, se uma tabela de streaming privada e um objeto no catálogo tiverem o mesmo nome, as referências ao nome resolvem-se para a tabela de streaming privada.
- As tabelas de streaming privadas são mantidas durante toda a duração do pipeline e não apenas durante uma única atualização.
Tabelas de streaming privadas foram criadas anteriormente com o TEMPORARY parâmetro.
table_name

O nome da tabela recém-criada. O nome totalmente qualificado da tabela deve ser único.
especificação_da_tabela

Esta cláusula opcional define a lista de colunas, seus tipos, propriedades, descrições e restrições de coluna.
- column_identifier
  
  Os nomes das colunas devem ser exclusivos e corresponder às colunas de saída da consulta.
- tipo_de_coluna
  
  Especifica o tipo de dados da coluna. Nem todos os tipos de dados suportados pelo Azure Databricks são suportados por tabelas de streaming.
- column_comment
  
  Um STRING literal opcional descrevendo a coluna. Esta opção deve ser especificada juntamente com column_type. Se o tipo de coluna não for especificado, o comentário da coluna é ignorado.
- GERADO SEMPRE COMO ( expr )
  
  Quando você especifica essa cláusula, o valor desta coluna é determinado pelo especificado expr.
  
  O DEFAULT COLLATION da tabela deve ser UTF8_BINARY.
  
  expr pode ser composto por literais, identificadores de coluna dentro da tabela e funções ou operadores SQL determinísticos internos, exceto:
  - Funções agregadas
  - Funções de janela analítica
  - Funções da janela de classificação
  - Funções geradoras de valores de tabela
  - Colunas com ordenação diferente de UTF8_BINARY
  Também expr não deve conter nenhuma subconsulta.
- GERADO { SEMPRE | POR PADRÃO } COMO IDENTIDADE [ ( [ COMEÇAR COM início ] [ INCREMENTAR POR passo ] ) ]
  
  Aplica-se a: Databricks SQL Databricks Runtime 10.4 LTS e versões superiores
  
  Define uma coluna de identidade. Quando você grava na tabela e não fornece valores para a coluna de identidade, será atribuído automaticamente a ela um valor exclusivo e estatisticamente crescente (ou decrescente se step for negativo). Esta cláusula só é suportada para tabelas Delta. Esta cláusula só pode ser usada para colunas com tipo de dados BIGINT.
  
  Os valores atribuídos automaticamente começam com start e aumentam em step. Os valores atribuídos são únicos, mas não é garantido que sejam contíguos. Ambos os parâmetros são opcionais e o valor padrão é 1. step não pode ser 0.
  
  Se os valores atribuídos automaticamente estiverem além do intervalo do tipo de coluna de identidade, a consulta falhará.
  
  Quando ALWAYS é usado, você não pode fornecer seus próprios valores para a coluna de identidade.
  
  As seguintes operações não são suportadas:
  - PARTITIONED BY uma coluna de identidade
  - UPDATE uma coluna de identidade
  Observação
  
  Declarar uma coluna de identidade em uma tabela desabilita transações simultâneas. Utilize colunas de identidade apenas em casos de uso em que não sejam necessárias gravações simultâneas na tabela de destino.
- PADRÃO default_expression
  
  Aplica-se a: Databricks SQL Databricks Runtime 11.3 LTS e acima
  
  Define um DEFAULT valor para a coluna que é usado em INSERT, UPDATEe MERGE ... INSERT quando a coluna não é especificada.
  
  Se nenhum padrão for especificado, DEFAULT NULL será aplicado para colunas anuláveis.
  
  default_expression pode ser composto de literais e funções ou operadores SQL internos, exceto:
  - Funções agregadas
  - Funções de janela analítica
  - Funções da janela de classificação
  - Funções geradoras de valores de tabela
  Também default_expression não deve conter nenhuma subconsulta.
  
  DEFAULT é suportado para CSV, JSON, PARQUETe ORC fontes.
- column_constraint
  
  Adiciona uma restrição de chave primária informacional ou de chave estrangeira informativa à coluna numa tabela de streaming.
- Cláusula MASK
  
  Adiciona uma função de máscara de coluna para anonimizar dados sensíveis.
  
  Consulte os filtros de linha e as máscaras de coluna.
- CONSTRAINT expectation_name EXIGIR (expectation_expr) [ EM CASO DE VIOLAÇÃO { FAIL UPDATE | DROP ROW } ]
  
  Adiciona expectativas de qualidade dos dados à tabela de streaming. Essas expectativas de qualidade de dados podem ser acompanhadas ao longo do tempo e acessadas por meio do log de eventos da tabela de transmissão. Uma expectativa de FAIL UPDATE faz com que o processamento falhe ao criar a tabela e ao atualizá-la. Uma DROP ROW expectativa faz com que toda a linha seja removida se a expectativa não for cumprida. Consulte Gerir a qualidade dos dados com as expectativas do fluxo de dados.
  
  expectation_expr pode ser composto por literais, identificadores de coluna dentro da tabela e funções ou operadores SQL determinísticos internos, exceto:
  - Funções agregadas
    - Funções de janela analítica
    - Funções da janela de classificação
    - Funções geradoras de valores de tabela
  Também expr não deve conter nenhuma subconsulta.
restrição_de_tabela

Ao especificar um esquema, você pode definir chaves primárias e estrangeiras. As restrições são informativas e não são aplicadas. Consulte a cláusula CONSTRAINT na referência da linguagem SQL.

Observação

Para definir restrições de tabela, seu pipeline deve ser um pipeline habilitado para Unity Catalog.
cláusulas_da_tabela

Opcionalmente, especifique particionamento, comentários e propriedades definidas pelo usuário para a tabela. Cada subcláusula só pode ser especificada uma vez.
- USANDO DELTA
  
  Especifica o formato de dados. A única opção é DELTA.
  
  Esta cláusula é opcional e por predefinição é DELTA.
- DIVIDIDO POR
  
  Uma lista opcional de uma ou mais colunas a serem usadas para particionamento na tabela. Mutuamente exclusivo com CLUSTER BY.
  
  O agrupamento líquido oferece uma solução flexível e otimizada para agrupamento. Considere usar CLUSTER BY em vez de PARTITIONED BY para pipelines.
- CLUSTER BY
  
  Ative o agrupamento líquido na tabela e defina as colunas que serão utilizadas como chaves de agrupamento. Utilize o clustering automático de líquidos com CLUSTER BY AUTO, e o Databricks escolhe inteligentemente as chaves de clustering para otimizar o desempenho das consultas. Mutuamente exclusivo com PARTITIONED BY.
  
  Veja Utilizar clustering líquido para tabelas.
- LOCALIZAÇÃO
  
  Um local de armazenamento opcional para dados de tabela. Se não estiver definido, o sistema passa por defeito para a localização de armazenamento do pipeline.
- COMENTAR
  
  É opcional um literal STRING para descrever a tabela.
- TBLPROPERTIES
  
  Uma lista opcional de propriedades da tabela.
- COM ROW FILTER
Adiciona uma função de filtro de linha à tabela. Consultas futuras para essa tabela recebem um subconjunto das linhas para as quais a função é avaliada como TRUE. Isso é útil para controle de acesso refinado, porque permite que a função inspecione a identidade e as associações de grupo do usuário que invoca para decidir se deseja filtrar determinadas linhas.

Consulte a cláusula ROW FILTER.
- FLUXO
  
  Opcionalmente, define um fluxo em linha com a criação da tabela. Um flow é uma consulta com estado que atualiza o conteúdo da tabela. Se FLOW não for especificado, pode-se usar AS query em vez disso, ou definir fluxos separadamente com CREATE FLOW. Pode especificar um dos seguintes tipos de fluxo:
  - INSERT PELO NOME
    
    Insere dados na tabela pelo nome da coluna. Se a ONCE opção não for fornecida, a consulta deve ser uma consulta de streaming. Use a palavra-chave STREAM para aplicar as semânticas de streaming na leitura a partir da fonte. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. É mais seguro ler a partir de fontes estáticas ou apenas de anexação.
    Observação
    
    FLOW INSERT BY NAME é equivalente a usar AS query. As duas afirmações seguintes têm comportamento idêntico:
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - UMA VEZ
    
    Opcionalmente, define o fluxo como um fluxo único, como um preenchimento. Quando ONCE é fornecido, a consulta não é uma consulta de streaming, e o fluxo é executado uma única vez por defeito. Se a tabela for atualizada com uma atualização completa, o ONCE fluxo é executado novamente para recriar os dados. ONCE Aplica-se apenas a INSERT BY NAME fluxos.
  - AUTO CDC
    
    Importante
    
    Disponível no Databricks Runtime 17.3 e superiores e no PREVIEW canal Pipelines.
    
    Define um AUTO CDC fluxo que processa registos de captura de dados de alteração (CDC) de uma fonte para a tabela. Use AUTO CDC quando os dados de origem incluem semântica do CDC. Consulte As APIs do AUTO CDC: Simplifique a captura de dados de alteração com pipelines.
  - Consulta SUBSTITUIR WHEREo predicado BY NAME
    
    Importante
    
    FLOW REPLACE WHERE está em Beta. Requer a utilização do canal Pipelines Preview — definir a pipelines.channel propriedade tabela para "PREVIEW".
    
    Define um REPLACE WHERE fluxo que recalcula e sobrescreve apenas as linhas correspondentes predicate, deixando todas as outras linhas intocadas. Uso REPLACE WHERE para processamento em lote incremental de junções e agregações, dados que chegam tarde, evolução de esquemas e preenchimentos. BY NAME é obrigatório. Ver processamento em lote com fluxos SUBSTITUIWHERE.
Consulta AS

Esta cláusula preenche a tabela usando os dados de query. Essa consulta deve ser uma consulta de streaming . Utilize a palavra-chave STREAM para aplicar a semântica de transmissão e ler a partir da fonte. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. É mais seguro ler a partir de fontes estáticas ou apenas de anexação. Para ingerir dados que tenham commits de alteração, pode adicionar a skipChangeCommits opção de leitura para lidar com erros.

Quando você especifica um query e um table_specification juntos, o esquema de tabela especificado em table_specification deve conter todas as colunas retornadas pelo query, caso contrário, você receberá um erro. Quaisquer colunas especificadas em table_specification mas não retornadas por query apresentarão valores null quando consultadas.

Para obter mais informações sobre a transmissão de dados, consulte Transformar dados com pipelines.
- Opções de Leitura
  
  Pode especificar opções de leitura na consulta para configurar como os dados são lidos da fonte. Por exemplo, pode especificar skipChangeCommits para saltar quaisquer commits de alteração nos dados de origem. As opções de leitura são especificadas como um mapa na WITH cláusula de consulta. Por exemplo:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  É =TRUE opcional, por isso também podes especificar uma opção booleana como esta:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Observação
  
  As opções de leitura são suportadas apenas para Databricks Runtime 17.3 e superiores.
  
  As opções de leitura abaixo são suportadas para o Delta; para detalhes sobre cada opção, veja leituras e escritas em streaming de tabelas Delta Lake.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Permissões necessárias

O usuário run-as para um pipeline deve ter as seguintes permissões:

SELECT privilégio sobre as tabelas base referenciadas pela tabela de transmissão.
o privilégio USE CATALOG no catálogo pai e o privilégio USE SCHEMA no esquema pai.
CREATE MATERIALIZED VIEW privilégio na estrutura da tabela de streaming.

Para que um usuário possa atualizar o pipeline no qual a tabela de streaming está definida, eles precisam:

o privilégio USE CATALOG no catálogo pai e o privilégio USE SCHEMA no esquema pai.
Propriedade da tabela de streaming ou REFRESH privilégio sobre a tabela de streaming.
O proprietário da tabela de streaming deve ter o SELECT privilégio sobre as tabelas base referenciadas pela tabela de streaming.

Para que um usuário possa consultar a tabela de streaming resultante, eles precisam:

o privilégio USE CATALOG no catálogo pai e o privilégio USE SCHEMA no esquema pai.
SELECT privilégio sobre a tabela de streaming.

Limitações

Apenas os proprietários das tabelas podem atualizar as tabelas em tempo real para obter os dados mais recentes.
Comandos ALTER TABLE não são permitidos em tabelas de streaming. A definição e as propriedades da tabela devem ser alteradas através da instrução CREATE OR REFRESH ou ALTER STREAMING TABLE.
Não há suporte para a evolução do esquema de tabela por meio de comandos DML como INSERT INTOe MERGE.
Os seguintes comandos não são suportados em tabelas de streaming:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Não há suporte para renomear a tabela ou alterar o proprietário.

Examples

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Comentários

Esta página foi útil?

Last updated on 2026-07-10