CREATE STREAMING TABLE (pipeline)

Una tabella di streaming è una tabella con supporto per lo streaming o l'elaborazione incrementale dei dati. Le tabelle di streaming sono alimentate dalle pipeline. Ogni volta che viene aggiornata una tabella di streaming, i dati aggiunti alle tabelle di origine vengono aggiunti alla tabella di streaming. È possibile aggiornare le tabelle di streaming manualmente o in base a una pianificazione.

Per altre informazioni su come eseguire o pianificare gli aggiornamenti, vedere Eseguire un aggiornamento della pipeline.

Sintassi

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parametri

REFRESH

Se specificato, creerà la tabella o aggiornerà una tabella esistente e il relativo contenuto.
PRIVATO

Crea una tabella di streaming privata.
- Non vengono aggiunti al catalogo e sono accessibili solo all'interno della pipeline di definizione
- Possono avere lo stesso nome di un oggetto esistente nel catalogo. All'interno della pipeline, se una tabella di streaming privata e un oggetto nel catalogo hanno lo stesso nome, i riferimenti al nome si risolveranno nella tabella di streaming privata.
- Le tabelle di streaming private vengono mantenute solo per tutta la durata della pipeline, non solo per un singolo aggiornamento.
Le tabelle di streaming private sono state create in precedenza con il TEMPORARY parametro .
table_name

Nome della tabella appena creata. Il nome della tabella, completo e qualificato, deve essere univoco.
specifica_tavola

Questa clausola facoltativa definisce l'elenco di colonne, i relativi tipi, proprietà, descrizioni e vincoli di colonna.
- column_identifier
  
  I nomi delle colonne devono essere univoci e corrispondere alle colonne di output della query.
- Tipo_di_colonna
  
  Specifica il tipo di dati della colonna. Non tutti i tipi di dati supportati da Azure Databricks sono supportati dalle tabelle di streaming.
- column_comment
  
  Etichetta STRING che descrive la colonna, facoltativa. Questa opzione deve essere specificata insieme a column_type. Se il tipo di colonna non viene specificato, il commento della colonna viene ignorato.
- column_constraint
  
  Aggiunge un vincolo che convalida i dati durante il flusso nella tabella. Vedi Gestisci la qualità dei dati con le aspettative della pipeline.
- Clausola MASK
  
  Aggiunge una funzione di mascheratura delle colonne per rendere anonimi i dati sensibili.
  
  Vedere Filtri di riga e maschere di colonna.
vincolo_di_tabella

Quando si specifica uno schema, è possibile definire chiavi primarie ed esterne. I vincoli sono informativi e non vengono applicati. Consulta la clausola CONSTRAINT nella guida di riferimento del linguaggio SQL.

Annotazioni

Per definire i vincoli di tabella, la pipeline deve avere il Catalogo Unity abilitato.
table_clauses

Facoltativamente, specificare il partizionamento, i commenti e le proprietà definite dall'utente per la tabella. Ogni clausola secondaria può essere specificata una sola volta.
- USO DI DELTA
  
  Specifica il formato dati. L'unica opzione è DELTA.
  
  Questa clausola è facoltativa e l'impostazione predefinita è DELTA.
- PARTIZIONATO PER
  
  Elenco facoltativo di una o più colonne da utilizzare per il partizionamento nella tabella. Si escludono con CLUSTER BY a vicenda.
  
  Il clustering liquido offre una soluzione flessibile e ottimizzata per il clustering. È consigliabile usare CLUSTER BY anziché PARTITIONED BY per le pipeline.
- CLUSTER BY
  
  Abilitare il clustering liquido nella tabella e definire le colonne da usare come chiavi di clustering. Usare il clustering liquido automatico con CLUSTER BY AUTOe Databricks sceglie in modo intelligente le chiavi di clustering per ottimizzare le prestazioni delle query. Si escludono con PARTITIONED BY a vicenda.
  
  Vedere Usare clustering liquido per le tabelle.
- UBICAZIONE
  
  Posizione di archiviazione facoltativa per i dati della tabella. Se non impostato, il sistema userà per impostazione predefinita il percorso di archiviazione della pipeline.
- COMMENTO
  
  Un valore letterale facoltativo STRING per descrivere la tabella.
- TBLPROPERTIES
  
  Elenco facoltativo delle proprietà della tabella.
- CON ROW FILTER
Aggiunge una funzione di filtro di riga alla tabella. Le future query per tale tabella ricevono un sottoinsieme delle righe per cui la funzione restituisce TRUE. Ciò è utile per il controllo di accesso con granularità fine, perché consente alla funzione di controllare l'identità e le appartenenze ai gruppi dell'utente che richiama per decidere se filtrare determinate righe.

Vedere la clausola ROW FILTER.
- FLUSSO
  
  Facoltativamente, definisce un flusso inline con la creazione della tabella. Un flusso è una query con stato che aggiorna il contenuto della tabella. Se FLOW non viene specificato, è possibile usare AS query o definire i flussi separatamente con CREATE FLOW. È possibile specificare uno dei tipi di flusso seguenti:
  - INSERT PER NOME
    
    Inserisce i dati nella tabella in base al nome della colonna. Se l'opzione ONCE non viene specificata, la query deve essere una query di streaming. Utilizzare la parola chiave STREAM per applicare la semantica di streaming, leggendo dalla sorgente. Se la lettura rileva una modifica o un'eliminazione in un record esistente, viene generato un errore. È più sicuro leggere da fonti statiche o a solo aggiunta.
    Annotazioni
    
    FLOW INSERT BY NAME equivale all'uso di AS query. Le due istruzioni seguenti hanno un comportamento identico:
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - Una volta
    
    Facoltativamente, definisce il flusso come flusso monouso, ad esempio un riempimento. Quando ONCE viene specificata, la query non è una query di streaming e il flusso viene eseguito una volta per impostazione predefinita. Se la tabella viene aggiornata con un aggiornamento completo, il ONCE flusso viene eseguito di nuovo per ricreare i dati. ONCE si applica solo ai INSERT BY NAME flussi.
  - AUTO CDC
    
    Importante
    
    Disponibile in Databricks Runtime 17.3 e versioni successive e nel PREVIEW canale Pipelines.
    
    Definisce un AUTO CDC flusso che elabora i record cdc (Change Data Capture) da un'origine alla tabella. Usare AUTO CDC quando i dati di origine includono la semantica CDC. Consulta le API AUTO CDC: semplificare la cattura dei dati modificati con le pipeline.
  - Query REPLACE WHEREpredicate BY NAME
    
    Importante
    
    FLOW REPLACE WHERE è in beta. Richiede l'uso del canale Pipelines Preview: impostare la pipelines.channel proprietà table su "PREVIEW".
    
    Definisce un REPLACE WHERE flusso che ricompila e sovrascrive solo le righe corrispondenti predicate, lasciando invariate tutte le altre righe. Uso REPLACE WHERE per l'elaborazione batch incrementale di join e aggregazioni, dati in arrivo in ritardo, evoluzione dello schema e backfill. BY NAME è obbligatorio. Vedere Elaborazione batch con flussi REPLACEWHERE.
Query AS

Questa clausola popola la tabella usando i dati di query. Questa query deve essere una query di streaming. Utilizzare la parola chiave STREAM per utilizzare la semantica di streaming per leggere dalla sorgente. Se la lettura rileva una modifica o un'eliminazione in un record esistente, viene generato un errore. È più sicuro leggere da fonti statiche o a solo aggiunta. Per inserire dati con commit di modifica, è possibile aggiungere l'opzione SkipChangeCommits di lettura per gestire gli errori.

Quando si specifica un query e un table_specification insieme, lo schema della tabella specificato in table_specification deve contenere tutte le colonne restituite dal query, in caso contrario viene visualizzato un errore. Qualsiasi colonna specificata in table_specification ma non restituita da query restituisce valori null quando viene eseguita una query.

Per ulteriori informazioni sui dati di streaming, vedere Trasformare i dati con le pipeline.
- Opzioni di lettura
  
  È possibile specificare le opzioni di lettura nella query per configurare la modalità di lettura dei dati dall'origine. Ad esempio, è possibile specificare skipChangeCommits di ignorare eventuali commit delle modifiche nei dati di origine. Le opzioni di lettura vengono specificate come mappa nella WITH clausola della query. Per esempio:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  =TRUE è facoltativo, quindi è anche possibile specificare un'opzione booleana simile alla seguente:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Annotazioni
  
  Le opzioni di lettura sono supportate solo per Databricks Runtime 17.3 e versioni successive.
  
  Le opzioni di lettura seguenti sono supportate per Delta, per informazioni dettagliate su ogni opzione, vedere Letture e scritture di streaming delle tabelle Delta.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Autorizzazioni necessarie

L'utente run-as per una pipeline deve avere le autorizzazioni seguenti:

SELECT privilegi sulle tabelle di base a cui fa riferimento la tabella di streaming.
Il privilegio USE CATALOG sul catalogo padre e il privilegio USE SCHEMA sullo schema padre.
CREATE MATERIALIZED VIEW privilegio sullo schema della tabella di streaming.

Affinché un utente possa aggiornare la pipeline all'interno della quale è definita la tabella di streaming, è necessario:

Il privilegio USE CATALOG sul catalogo padre e il privilegio USE SCHEMA sullo schema padre.
Proprietà della tabella di streaming o privilegio sulla tabella di streaming.
Il proprietario della tabella di streaming deve avere il SELECT privilegio sulle tabelle di base a cui fa riferimento la tabella di streaming.

Affinché un utente sia in grado di eseguire query sulla tabella di streaming risultante, è necessario:

Il privilegio USE CATALOG sul catalogo padre e il privilegio USE SCHEMA sullo schema padre.
SELECT privilegio sulla tabella di streaming.

Limitazioni

Solo i proprietari delle tabelle possono aggiornare le tabelle di streaming per ottenere i dati più recenti.
I comandi ALTER TABLE non sono consentiti nelle tabelle di streaming. La definizione e le proprietà della tabella devono essere modificate tramite l'istruzione CREATE OR REFRESH o ALTER STREAMING TABLE.
L'evoluzione dello schema di tabella tramite comandi DML come INSERT INTOe MERGE non è supportata.
I comandi seguenti non sono supportati nelle tabelle di streaming:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
La rinominazione della tabella o la modifica del proprietario non è supportata.
Le colonne generate, le colonne identità e le colonne predefinite non sono supportate.

Esempi

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-26