CREATE STREAMING TABLE (canaux)

Une table de diffusion en continu est une table qui prend en charge la diffusion en continu ou le traitement incrémentiel des données. Les tables de diffusion en continu sont soutenues par des pipelines. Chaque fois qu’une table de diffusion en continu est actualisée, les données ajoutées aux tables sources sont ajoutées à la table de diffusion en continu. Vous pouvez actualiser les tables de diffusion en continu manuellement ou selon une planification.

Pour en savoir plus sur l’exécution ou la planification des actualisations, consultez Exécuter une mise à jour de pipeline.

Syntaxe

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Paramètres

REFRESH

Si elle est spécifiée, crée la table ou met à jour une table existante et son contenu.
PRIVÉ

Crée une table de diffusion en continu privée.
- Ils ne sont pas ajoutés au catalogue et sont uniquement accessibles dans le pipeline de définition
- Ils peuvent avoir le même nom qu’un objet existant dans le catalogue. Dans le pipeline, si une table de diffusion en continu privée et un objet du catalogue ont le même nom, les références au nom sont résolues dans la table de diffusion en continu privée.
- Les tables de diffusion en continu privées sont sauvegardées pendant la durée de vie complète du pipeline, et non pas seulement pour une mise à jour unique.
Les tables de diffusion en continu privées ont été créées précédemment avec le TEMPORARY paramètre.
table_name

Le nom de la table nouvellement créée. Le nom complet de la table doit être unique.
spécification_de_table

Cette clause facultative définit la liste des colonnes, leurs types, leurs propriétés, leurs descriptions et leurs contraintes de colonne.
- column_identifier
  
  Les noms de colonnes doivent être uniques et mappés aux colonnes de sortie de la requête.
- column_type
  
  Spécifie le type de données de la colonne. Tous les types de données pris en charge par Azure Databricks ne sont pas pris en charge par les tables de streaming.
- column_comment
  
  Littéral STRING facultatif décrivant la colonne. Cette option doit être spécifiée avec column_type. Si le type de colonne n’est pas spécifié, le commentaire de colonne est ignoré.
- TOUJOURS GÉNÉRÉ EN TANT QUE ( expr )
  
  Lorsque vous spécifiez cette clause, la valeur de cette colonne est déterminée par le spécifié expr .
  
  Le DEFAULT COLLATION de la table doit être UTF8_BINARY.
  
  expr peut être composé de littéraux, d’identificateurs de colonnes dans la table, et de fonctions ou d’opérateurs SQL déterministes intégrés, à l’exception de :
  - Fonctions d’agrégation
  - Fonctions de fenêtre analytique
  - Les fonctions de classement de fenêtre
  - Fonctions du générateur à valeur de table
  - Colonnes avec un classement autre que UTF8_BINARY
  exprNe doit pas non plus contenir de sous-requête.
- GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ [ START WITH start ] [ INCRÉMENT BY STEP ] ) ]
  
  S’applique à : Databricks SQL Databricks Runtime 10.4 LTS et versions ultérieures
  
  Définit une colonne d’identité. Lorsque vous écrivez dans la table et que vous ne fournissez pas de valeurs pour la colonne d’identité, une valeur unique et une valeur d’augmentation statistique (ou diminuant si step est négatif) lui est automatiquement affectée. Cette clause est uniquement prise en charge pour les tables Delta. Cette clause ne peut être utilisée que pour les colonnes de type de données BIGINT.
  
  Les valeurs assignées automatiquement commencent par start et s’incrémentent par step . Les valeurs attribuées sont uniques, mais leur contiguïté n’est pas garantie. Les deux paramètres sont facultatifs et la valeur par défaut est 1. step ne peut pas être 0.
  
  Si les valeurs affectées automatiquement se trouvent au-delà de la plage du type de colonne d’identité, la requête échoue.
  
  Lorsque ALWAYS est utilisé, vous ne pouvez pas fournir vos propres valeurs pour la colonne d’identité.
  
  Les opérations suivantes ne sont pas prises en charge :
  - PARTITIONED BY une colonne d’identité
  - UPDATE une colonne d’identité
  Note
  
  La déclaration d’une colonne d’identité sur une table désactive les transactions simultanées. Utilisez uniquement des colonnes d’identité dans les cas d’usage où des écritures simultanées dans la table cible ne sont pas requises.
- DEFAULT_EXPRESSION PAR DÉFAUT
  
  S’applique à : Databricks SQL Databricks Runtime 11.3 LTS et versions ultérieures
  
  Définit une valeur DEFAULT pour la colonne qui est utilisée sur INSERT, UPDATE et MERGE ... INSERT lorsque la colonne n’est pas spécifiée.
  
  Si aucune valeur par défaut n’est spécifiée, DEFAULT NULL est appliqué aux colonnes nullables.
  
  default_expression peut être composé de littéraux ainsi que de fonctions SQL intégrées ou d’opérateurs, à l’exception de :
  - Fonctions d’agrégation
  - Fonctions de fenêtre analytique
  - Les fonctions de classement de fenêtre
  - Fonctions du générateur à valeur de table
  default_expressionNe doit pas non plus contenir de sous-requête.
  
  DEFAULT est pris en charge pour les sources CSV, JSON, PARQUET et ORC.
- column_constraint
  
  Ajoute une contrainte de clé primaire d’information ou de clé étrangère informationnelle à la colonne d’une table de diffusion en continu.
- Clause MASK
  
  Permet d’ajouter une fonction de masque de colonne pour anonymiser les données sensibles.
  
  Consultez les filtres de lignes et les masques de colonne.
- CONSTRAINT expectation_name ATTENDRE (expectation_expr) [ ON VIOLATION { FAIL UPDATE | DROP ROW } ]
  
  Ajoute des attentes de qualité des données à la table de diffusion en continu. Ces attentes de qualité des données peuvent être suivies au fil du temps et accessibles via le journal des événements de la table de diffusion en continu. Une attente FAIL UPDATE entraîne l’échec du traitement lors de la création de la table et de l’actualisation de la table. Une attente DROP ROW entraîne la suppression de la ligne entière si l’attente n’est pas remplie. Voir Gérer la qualité des données avec les attentes de la chaîne de traitement.
  
  expectation_expr peut être composé de littéraux, d’identificateurs de colonnes dans la table, et de fonctions ou d’opérateurs SQL déterministes intégrés, à l’exception de :
  - Fonctions d’agrégation
    - Fonctions de fenêtre analytique
    - Les fonctions de classement de fenêtre
    - Fonctions du générateur à valeur de table
  exprNe doit pas non plus contenir de sous-requête.
contrainte_de_table

Lorsque vous spécifiez un schéma, vous pouvez définir des clés primaires et étrangères. Les contraintes sont informationnelles et ne sont pas appliquées. Consultez la clause CONSTRAINT dans la référence du langage SQL.

Note

Pour définir des contraintes de table, votre pipeline doit être compatible avec le Unity Catalog.
table_des_clauses

Spécifiez éventuellement les propriétés de partitionnement, de commentaires et définies par l’utilisateur pour la table. Chaque sous-clause ne peut être spécifiée qu’une seule fois.
- UTILISATION DE DELTA
  
  Spécifie le format de données. La seule option est DELTA.
  
  Cette clause est facultative et est définie par défaut sur DELTA.
- PARTITIONNÉ PAR
  
  Liste facultative d’une ou plusieurs colonnes à utiliser pour le partitionnement dans la table. Mutuellement exclusif avec CLUSTER BY.
  
  Le clustering liquide offre une solution flexible et optimisée pour le regroupement. Envisagez d’utiliser CLUSTER BY plutôt que PARTITIONED BY pour les pipelines.
- CLUSTER BY
  
  Activez le clustering liquide sur la table et définissez les colonnes à utiliser comme clés de clustering. Utilisez le clustering liquide automatique avec CLUSTER BY AUTO, et Databricks choisit intelligemment les clés de clustering pour optimiser les performances des requêtes. Mutuellement exclusif avec PARTITIONED BY.
  
  Consultez Utilisation de Liquid Clustering pour les tables.
- EMPLACEMENT
  
  Emplacement de stockage facultatif pour les données de la table. Si ce n’est pas le cas, le système est défini par défaut sur l’emplacement de stockage du pipeline.
- COMMENTAIRE
  
  Littéral STRING facultatif pour décrire la colonne.
- TBLPROPERTIES
  
  Liste facultative des propriétés de table disponibles pour la table.
- AVEC ROW FILTER
Ajoute une fonction de filtre de ligne au tableau. Toutes les requêtes futures de cette table reçoivent un sous-ensemble de lignes pour lesquelles la fonction prend la valeur TRUE. Cela est utile pour le contrôle d’accès affiné, car la fonction peut inspecter l’identité et les appartenances à un groupe de l’utilisateur appelant afin de décider s’il convient de filtrer certaines lignes.

Consultez la clause ROW FILTER.
- FLUX
  
  Définit éventuellement un flux inline avec la création de table. Un flux est une requête avec état qui actualise le contenu de la table. Si FLOW ce n’est pas spécifié, vous pouvez utiliser AS query à la place ou définir des flux séparément avec CREATE FLOW. Vous pouvez spécifier l’un des types de flux suivants :
  - INSERT PAR NOM
    
    Insère des données dans la table par nom de colonne. Si l’option ONCE n’est pas fournie, la requête doit être une requête de diffusion en continu. Utilisez le mot clé STREAM pour utiliser la sémantique de streaming pour lire à partir de la source. Si la lecture détecte une modification ou une suppression concernant un enregistrement existant, une erreur est générée. Il est plus sûr de lire depuis des sources statiques ou d’ajout uniquement.
    Note
    
    FLOW INSERT BY NAME équivaut à utiliser AS query. Les deux instructions suivantes ont un comportement identique :
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - ONCE
    
    Si vous le souhaitez, définissez le flux comme un flux à usage unique, tel qu’un remblai. Quand ONCE elle est fournie, la requête n’est pas une requête de diffusion en continu et le flux s’exécute une fois par défaut. Si la table est actualisée avec une actualisation complète, le ONCE flux s’exécute à nouveau pour recréer les données. ONCE s’applique uniquement aux INSERT BY NAME flux.
  - AUTO CDC
    
    Important
    
    Disponible dans Databricks Runtime 17.3 et versions ultérieures et dans le PREVIEW canal Pipelines.
    
    Définit un AUTO CDC flux qui traite les enregistrements de capture de données modifiées (CDC) d’une source dans la table. Utilisez AUTO CDC quand les données sources incluent la sémantique CDC. Consultez les API AUTO CDC : Simplifiez la capture de données modifiées avec des pipelines.
  - REMPLACER WHEREle prédicat BY NAME, requête
    
    Important
    
    FLOW REPLACE WHERE est en version bêta.
    
    Définit un REPLACE WHERE flux qui recompute et remplace uniquement les lignes correspondantes predicate, laissant toutes les autres lignes intactes. Permet REPLACE WHERE de traiter par lots incrémentiels les jointures et les agrégations, les données arrivant tardivement, l’évolution du schéma et les remplissages. BY NAME est obligatoire. Consultez traitement par lots avec des flux REPLACEWHERE.
Requête AS

Cette clause remplit la table à l’aide des données de query. Cette requête doit être une requête de diffusion en continu . Utilisez le mot clé STREAM pour utiliser la sémantique de diffusion en continu pour lire à partir de la source. Si la lecture détecte une modification ou une suppression concernant un enregistrement existant, une erreur est générée. Il est plus sûr de lire depuis des sources statiques ou d’ajout uniquement. Pour ingérer des données ayant des validations de modification, vous pouvez ajouter l’option skipChangeCommits de lecture pour gérer les erreurs.

Lorsque vous spécifiez un query et un table_specification ensemble, le schéma de table spécifié dans table_specification doit contenir toutes les colonnes retournées par le query, sinon vous obtenez une erreur. Toutes les colonnes spécifiées dans table_specification mais pas renvoyées par query renvoient des valeurs null lors de la requête.

Pour plus d’informations sur la diffusion en continu des données, consultez Transformer des données avec des pipelines.
- Options de lecture
  
  Vous pouvez spécifier des options de lecture dans la requête pour configurer la façon dont les données sont lues à partir de la source. Par exemple, vous pouvez spécifier skipChangeCommits d’ignorer les validations de modification dans les données sources. Les options de lecture sont spécifiées en tant que mappage dans la WITH clause de requête. Par exemple:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  L’option =TRUE est facultative. Vous pouvez donc également spécifier une option booléenne comme suit :
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Note
  
  Les options de lecture ne sont prises en charge que pour Databricks Runtime 17.3 et versions ultérieures.
  
  Les options de lecture ci-dessous sont prises en charge pour Delta, pour plus d’informations sur chaque option, consultez lectures et écritures de diffusion en continu de table Delta Lake.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Autorisations requises

L’utilisateur d’identification pour un pipeline doit avoir les autorisations suivantes :

Le privilège SELECT sur les tables de base référencées par la table de diffusion en continu.
Le privilège USE CATALOG sur le catalogue parent et le privilège USE SCHEMA sur le schéma parent.
Le privilège CREATE MATERIALIZED VIEW sur le schéma pour la table de diffusion en continu.

Pour qu’un utilisateur puisse mettre à jour le pipeline dans lequel la table de diffusion en continu est définie, il a besoin des éléments suivants :

Le privilège USE CATALOG sur le catalogue parent et le privilège USE SCHEMA sur le schéma parent.
La propriété de la table de diffusion en continu ou le privilège REFRESH sur la table de diffusion en continu.
Le propriétaire de la table de streaming doit avoir le privilège SELECT sur les tables de base référencées par la table de streaming.

Pour qu’un utilisateur puisse interroger la table de diffusion en continu résultante, il a besoin des éléments suivants :

Le privilège USE CATALOG sur le catalogue parent et le privilège USE SCHEMA sur le schéma parent.
Le privilège SELECT sur la table de diffusion en continu.

Limites

Seuls les propriétaires de tables peuvent actualiser les tables de streaming pour obtenir les données les plus récentes.
ALTER TABLE les commandes ne sont pas autorisées sur les tables de streaming. La définition et les propriétés de la table doivent être modifiées par le biais de l'instruction CREATE OR REFRESH ou de l'instruction ALTER STREAMING TABLE.
L’évolution du schéma de table via des commandes DML telles que INSERT INTOet MERGE n’est pas prise en charge.
Les commandes suivantes ne sont pas prises en charge sur les tables de streaming :
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Le changement de nom de la table ou du propriétaire n'est pas supporté.

Examples

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-07-22