CREATE STREAMING TABLE (linhas de produção)

Uma tabela de streaming é uma tabela com suporte para streaming ou processamento de dados incremental. As tabelas de streaming são suportadas por pipelines. Cada vez que uma tabela de streaming é atualizada, os dados adicionados às tabelas de origem são anexados à tabela de streaming. Você pode atualizar as tabelas de streaming manualmente ou mediante programação.

Para saber mais sobre como executar ou agendar atualizações, consulte Executar uma atualização de pipeline.

Sintaxe

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parâmetros

REFRESH

Se especificado, cria a tabela ou atualiza uma tabela existente e seu conteúdo.
PRIVADO

Cria uma tabela de streaming privada.
- Eles não são adicionados ao catálogo e só são acessíveis dentro do pipeline de definição
- Eles podem ter o mesmo nome de um objeto existente no catálogo. Dentro do pipeline, se uma tabela de streaming privada e um objeto no catálogo tiverem o mesmo nome, as referências ao nome são resolvidas para a tabela de streaming privada.
- As tabelas de streaming privadas são mantidas somente durante toda a vida útil do pipeline, não apenas durante uma única atualização.
Tabelas de streaming privadas foram criadas anteriormente com o parâmetro TEMPORARY.
table_name

O nome da tabela recém-criada. O nome da tabela totalmente qualificado deve ser exclusivo.
especificação_da_tabela

Esta cláusula opcional define a lista de colunas e os tipos, as propriedades, as descrições e as restrições de coluna associados.
- column_identifier
  
  Os nomes das colunas devem ser exclusivos e mapeados para as colunas de saída da consulta.
- tipo_de_coluna
  
  Especifica o tipo de dados da coluna. Nem todos os tipos de dados suportados pelo Azure Databricks são suportados por tabelas de streaming.
- column_comment
  
  Um literal opcional STRING que descreve a coluna. Essa opção deve ser especificada junto com o column_type. Se o tipo de coluna não for especificado, o comentário da coluna será ignorado.
- GERADO SEMPRE COMO ( expr )
  
  Quando você especifica essa cláusula, o valor dessa coluna é determinado pelo expr especificado.
  
  A DEFAULT COLLATION da tabela deve ser UTF8_BINARY.
  
  expr pode ser composto por literais, identificadores de coluna dentro da tabela e funções ou operadores determinísticos e internos do SQL, exceto:
  - Funções de agregação
  - Funções de janela analítica
  - Classificação de funções de janela
  - Funções geradoras com valor de tabela
  - Colunas com uma ordenação diferente de UTF8_BINARY
  Além disso, expr não deve conter nenhuma subconsulta.
- GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start ] [ INCREMENT BY step ] ]
  
  Aplica-se a: Databricks SQL Databricks Runtime 10.4 LTS e superior
  
  Define uma coluna de identidade. Ao gravar na tabela e não fornecer valores para a coluna de identidade, ele será atribuído automaticamente a um valor que seja exclusivo e aumente (ou diminua, se step for negativo) estatisticamente. Essa cláusula só tem suporte para tabelas Delta. Essa cláusula só pode ser usada para colunas com tipo de dados BIGINT.
  
  Os valores atribuídos automaticamente começam com start e são incrementados por step. Os valores atribuídos são exclusivos, mas não têm garantia de serem contíguos. Ambos os parâmetros são opcionais e o valor padrão é 1. step não pode ser 0.
  
  Se os valores atribuídos automaticamente estiverem além do intervalo do tipo de coluna de identidade, a consulta falhará.
  
  Quando ALWAYS for usado, você não pode fornecer seus próprios valores para a coluna de identidade.
  
  Não há suporte para as operações a seguir:
  - PARTITIONED BY uma coluna de identidade
  - UPDATE uma coluna de identidade
  Observação
  
  Declarar uma coluna de identidade em uma tabela desabilita transações simultâneas. Use colunas de identidade apenas em casos onde não são necessárias gravações simultâneas na tabela de destino.
- DEFAULT expressão padrão
  
  Aplica-se a: Databricks SQL Databricks Runtime 11.3 LTS e versões posteriores
  
  Define um valor DEFAULT para a coluna que é usada em INSERT, UPDATE e MERGE ... INSERT quando a coluna não é especificada.
  
  Se nenhum padrão for especificado, DEFAULT NULL será aplicado em colunas anuláveis.
  
  default_expression pode ser composto de literais e funções incorporadas de SQL ou operadores exceto:
  - Funções de agregação
  - Funções de janela analítica
  - Classificação de funções de janela
  - Funções geradoras com valor de tabela
  Além disso, default_expression não deve conter nenhuma subconsulta.
  
  DEFAULT há suporte para as fontes CSV, JSON, PARQUET e ORC.
- column_constraint
  
  Adiciona uma chave primária informativa ou restrição de chave estrangeira informativa à coluna em uma tabela de streaming.
- Cláusula MASK
  
  Adiciona uma função para mascarar colunas e anonimizar dados sensíveis.
  
  Veja Filtros de linha e máscaras de coluna.
- CONSTRAINT expectation_name ESPERE (expressão_de_expectativa) [ EM CASO DE VIOLAÇÃO { FALHA UPDATE | DESCARTAR LINHA } ]
  
  Adiciona expectativas de qualidade de dados à tabela de streaming. Essas expectativas de qualidade de dados podem ser controladas ao longo do tempo e acessadas por meio do log de eventos da tabela de streaming. Uma FAIL UPDATE expectativa causa a falha do processamento tanto ao criar a tabela quanto ao atualizá-la. Uma expectativa DROP ROW faz com que toda a linha seja removida se a expectativa não for atendida. Confira Gerenciar a qualidade dos dados com as expectativas do pipeline.
  
  expectation_expr pode ser composto por literais, identificadores de coluna dentro da tabela e funções ou operadores determinísticos e internos do SQL, exceto:
  - Funções de agregação
    - Funções de janela analítica
    - Classificação de funções de janela
    - Funções geradoras com valor de tabela
  Além disso, expr não deve conter nenhuma subconsulta.
restrição_de_tabela

Ao especificar um esquema, você pode definir as chaves primárias e estrangeiras. As restrições são informativas e não são impostas. Consulte a cláusula CONSTRAINT na referência da linguagem SQL.

Observação

Para definir restrições de tabela, seu pipeline deve ser um pipeline habilitado para o Unity Catalog.
tabela_cláusulas

Opcionalmente, especifique particionamento, comentários e propriedades definidas pelo usuário para a tabela. Cada subcláusula só pode ser especificada uma vez.
- USANDO DELTA
  
  Especifica o formato dos dados. A única opção é DELTA.
  
  Essa cláusula é opcional e o padrão é DELTA.
- PARTICIONADO POR
  
  Uma lista opcional de uma ou mais colunas a serem usadas para particionamento na tabela. Mutuamente exclusivo com CLUSTER BY.
  
  O agrupamento líquido oferece uma solução flexível e otimizada para agrupamento. Considere usar CLUSTER BY em vez de PARTITIONED BY para pipelines.
- CLUSTER BY
  
  Habilite o agrupamento líquido na tabela e defina as colunas a serem usadas como chaves de agrupamento. Use o agrupamento automático de líquidos com CLUSTER BY AUTO, e o Databricks escolhe de forma inteligente as chaves de agrupamento para otimizar o desempenho da consulta. Mutuamente exclusivo com PARTITIONED BY.
  
  Consulte Usar clustering líquido para tabelas.
- LOCALIZAÇÃO
  
  Um local de armazenamento opcional para os dados da tabela. Se não for definido, o sistema usará como padrão o local de armazenamento do pipeline.
- COMENTÁRIO
  
  Um literal STRING opcional para descrever a tabela.
- TBLPROPERTIES
  
  Uma lista opcional de propriedades da tabela para a tabela.
- COM ROW FILTER
Adiciona uma função de filtro de linha à tabela. Consultas futuras para essa tabela recebem um subconjunto das linhas para as quais a função é avaliada como TRUE. Isso pode ser útil para fins de controle de acesso refinado, em que a função pode inspecionar a identidade e/ou as associações de grupo do usuário que a invocou para decidir se deseja filtrar algumas linhas.

Consulte a cláusula ROW FILTER.
- FLUXO
  
  Opcionalmente, define um fluxo embutido com a criação da tabela. Um fluxo é uma consulta com estado que atualiza o conteúdo da tabela. Se FLOW não for especificado, você poderá usar AS query ou definir fluxos separadamente com CREATE FLOW. Você pode especificar um dos seguintes tipos de fluxo:
  - INSERT POR NOME
    
    Insere dados na tabela pelo nome da coluna. Se a opção ONCE não for fornecida, a consulta deverá ser uma consulta de streaming. Use a palavra-chave STREAM para usar a semântica de streaming para leitura da origem. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. É mais seguro ler de fontes estáticas ou somente de acréscimos.
    Observação
    
    FLOW INSERT BY NAME é equivalente a usar AS query. As duas instruções a seguir têm um comportamento idêntico:
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - Uma vez
    
    Opcionalmente, define o fluxo como um fluxo único, como um backfill. Quando ONCE é fornecida, a consulta não é uma consulta de streaming e o fluxo é executado uma vez por padrão. Se a tabela for atualizada com uma atualização completa, o ONCE fluxo será executado novamente para recriar os dados. ONCE aplica-se somente a INSERT BY NAME fluxos.
  - AUTO CDC
    
    Importante
    
    Disponível no Databricks Runtime 17.3 e superior e no PREVIEW canal pipelines.
    
    Define um AUTO CDC fluxo que processa registros CDC (captura de dados de alteração) de uma fonte para a tabela. Use AUTO CDC quando os dados de origem incluirem semântica CDC. Confira as APIs AUTO CDC: Simplifique a captura de alterações de dados com pipelines.
  - Substituir WHEREpredicado por consulta NAME
    
    Importante
    
    FLOW REPLACE WHERE está em Beta. Requer o uso do canal De visualização de pipelines – defina a propriedade da pipelines.channel tabela como "PREVIEW".
    
    Define um REPLACE WHERE fluxo que recompõe e substitui apenas as linhas correspondentes predicate, deixando todas as outras linhas intocadas. Use REPLACE WHERE para processamento incremental em lote de junções e agregações, dados de chegada tardia, evolução do esquema e backfills. BY NAME é obrigatório. Consulte o processamento do Lote com fluxos REPLACEWHERE.
Consulta AS

Essa cláusula preenche a tabela usando os dados de query. Essa consulta deve ser uma consulta de streaming. Use a palavra-chave STREAM para usar a semântica de streaming para ler a fonte. Se a leitura encontrar uma alteração ou exclusão em um registro existente, um erro será gerado. É mais seguro ler de fontes estáticas ou somente de acréscimos. Para ingerir dados que têm confirmações de alteração, você pode adicionar a opção skipChangeCommits de leitura para lidar com erros.

Quando você especifica um query e um table_specification juntos, o esquema de tabela especificado em table_specification deve conter todas as colunas retornadas pelo query, caso contrário, você receberá um erro. Todas as colunas especificadas em table_specification, mas não retornadas por query retornam valores null, quando consultadas.

Para obter mais informações sobre dados de fluxo, consulte Transformar dados com pipelines.
- Opções de leitura
  
  Você pode especificar opções de leitura na consulta para configurar como os dados são lidos da origem. Por exemplo, você pode especificar skipChangeCommits para ignorar todas as confirmações de alteração nos dados de origem. As opções de leitura são especificadas como um mapa na WITH cláusula de consulta. Por exemplo:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  O =TRUE é opcional, portanto, você também pode especificar uma opção booliana como esta:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Observação
  
  As opções de leitura só têm suporte para o Databricks Runtime 17.3 e superior.
  
  As opções de leitura abaixo têm suporte para Delta, para obter detalhes sobre cada opção, consulte leituras e gravações de streaming da tabela Delta Lake.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Permissões necessárias

O usuário run-as de um pipeline deve ter as seguintes permissões:

SELECT privilégio sobre as tabelas base referenciadas pela tabela de streaming.
USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
CREATE MATERIALIZED VIEW privilégio no esquema da tabela de streaming.

Para que um usuário possa atualizar o pipeline no qual a tabela de streaming está definida, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
Propriedade da tabela de streaming ou REFRESH privilégio na tabela de streaming.
O proprietário da tabela de streaming deve ter o privilégio SELECT sobre as tabelas base referenciadas pela tabela de streaming.

Para que um usuário possa consultar a tabela de streaming resultante, ele precisa:

USE CATALOG privilégio no catálogo pai e o privilégio USE SCHEMA no esquema pai.
SELECT privilégio sobre a tabela de streaming.

Limitações

Somente os proprietários de tabelas podem atualizar tabelas de streaming para obter os dados mais recentes.
ALTER TABLE os comandos não são permitidos em tabelas de streaming. A definição e as propriedades da tabela devem ser alteradas por meio da instrução CREATE OR REFRESH ou ALTER STREAMING TABLE.
Não há suporte para a evolução do esquema de tabela por meio de comandos DML como INSERT INTO e MERGE.
Não há suporte para os seguintes comandos em tabelas de streaming:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Não há suporte para renomear a tabela ou alterar o proprietário.

Exemplos

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Comentários

Esta página foi útil?

Last updated on 2026-07-10