CREATE STREAMING TABLE (rörledningar)

En strömningstabell är en tabell med stöd för direktuppspelning eller inkrementell databearbetning. Strömmande tabeller stöds av pipelines. Varje gång en strömmande tabell uppdateras läggs data som läggs till i källtabellerna till i strömningstabellen. Du kan uppdatera strömmande tabeller manuellt eller enligt ett schema.

Mer information om hur du utför eller schemalägger uppdateringar finns i Köra en pipelineuppdatering.

Syntax

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parameterar

REFRESH

Om du anger det skapar du tabellen eller uppdaterar en befintlig tabell och dess innehåll.
PRIVAT

Skapar en privat strömningstabell.
- De läggs inte till i katalogen och är endast tillgängliga i den definierande pipelinen
- De kan ha samma namn som ett befintligt objekt i katalogen. Om en privat direktuppspelningstabell och ett objekt i katalogen har samma namn i pipelinen matchas referenser till namnet till den privata strömningstabellen.
- Privata direktuppspelningstabeller sparas bara under pipelinens livslängd, inte bara en enda uppdatering.
Privata direktuppspelningstabeller skapades tidigare med parametern TEMPORARY .
table_name

Namnet på den nyligen skapade tabellen. Det fullständigt kvalificerade tabellnamnet måste vara unikt.
tabellspecifikation

Den här valfria satsen definierar listan över kolumner, deras typer, egenskaper, beskrivningar och kolumnbegränsningar.
- column_identifier
  
  Kolumnnamnen måste vara unika och mappas till frågans utdatakolumner.
- kolumntyp
  
  Specificerar kolumnens datatyp. Alla datatyper som stöds av Azure Databricks stöds inte av strömmande tabeller.
- column_comment
  
  En valfri STRING-literal som beskriver kolumnen. Det här alternativet måste anges tillsammans med column_type. Om kolumntypen inte har angetts hoppas kolumnkommenteringen över.
- GENERERAS ALLTID SOM ( uttr )
  
  När du anger den här satsen bestäms värdet för den här kolumnen av den angivna expr.
  
  Tabellens DEFAULT COLLATION måste vara UTF8_BINARY.
  
  expr kan bestå av literaler, kolumnidentifierare i tabellen och deterministiska, inbyggda SQL-funktioner eller operatorer förutom:
  - Mängdfunktioner
  - Analytiska fönsterfunktioner
  - Funktioner för rangordningsfönster
  - Generatorfunktioner som returnerar tabellvärden
  - Kolumner med en annan teckenkodning än UTF8_BINARY
  Får inte heller expr innehålla någon underfråga.
- GENERERAD { ALLTID | SOM STANDARDVÄRDE } SOM IDENTIFIERING [ ( [ STARTA MED start ] [ ÖKA MED steg ] ) ]
  
  Gäller för: Databricks SQL Databricks Runtime 10.4 LTS och senare
  
  Definierar en identitetskolumn. När du skriver till tabellen och inte anger värden för identitetskolumnen, kommer den automatiskt att tilldelas ett unikt och statistiskt ökat värde (eller minskat om step är negativt). Den här satsen stöds endast för Delta-tabeller. Den här satsen kan endast användas för kolumner med BIGINT-datatyp.
  
  De automatiskt tilldelade värdena börjar med start och ökar med step. Tilldelade värden är unika men garanteras inte vara sammanhängande. Båda parametrarna är valfria och standardvärdet är 1. step kan inte vara 0.
  
  Om de automatiskt tilldelade värdena ligger utanför intervallet för identitetskolumntypen misslyckas frågan.
  
  När ALWAYS används kan du inte ange egna värden för identitetskolumnen.
  
  Följande åtgärder stöds inte:
  - PARTITIONED BY en identitetskolumn
  - UPDATE en identitetskolumn
  Anmärkning
  
  Om du deklarerar en identitetskolumn i en tabell inaktiveras samtidiga transaktioner. Använd endast identitetskolumner i användningsfall där samtidiga skrivningar till måltabellen inte krävs.
- STANDARD default_expression
  
  Gäller för: Databricks SQL Databricks Runtime 11.3 LTS och senare
  
  Definierar ett DEFAULT värde för kolumnen som används på INSERT, UPDATEoch MERGE ... INSERT när kolumnen inte har angetts.
  
  Om inget standardvärde anges DEFAULT NULL tillämpas för nullbara kolumner.
  
  default_expression kan bestå av literaler och inbyggda SQL-funktioner eller -operatorer förutom:
  - Mängdfunktioner
  - Analytiska fönsterfunktioner
  - Funktioner för rangordningsfönster
  - Generatorfunktioner som returnerar tabellvärden
  Får inte heller default_expression innehålla någon underfråga.
  
  DEFAULT stöds för CSV, JSON, PARQUEToch ORC källor.
- column_constraint
  
  Lägger till en primär informationsnyckel eller informationsnyckelbegränsning i kolumnen i en strömmande tabell.
- MASK-villkor
  
  Lägger till en kolumnmaskfunktion för att anonymisera känsliga data.
  
  Se Radfilter och kolumnmasker.
- CONSTRAINT expectation_name EXPECT (expectation_expr) [ ON VIOLATION { FAIL UPDATE | TA BORT RAD } ]
  
  Lägger till datakvalitetsförväntningar i strömningstabellen. Dessa förväntningar på datakvalitet kan spåras över tid och nås via strömningstabellens händelselogg. En FAIL UPDATE förväntan gör att bearbetningen misslyckas både när du skapar tabellen och uppdaterar tabellen. En DROP ROW förväntan gör att hela raden tas bort om förväntningarna inte uppfylls. Se avsnittet Hantera datakvalitet med pipeline-förväntningar.
  
  expectation_expr kan bestå av literaler, kolumnidentifierare i tabellen och deterministiska, inbyggda SQL-funktioner eller operatorer förutom:
  - Mängdfunktioner
    - Analytiska fönsterfunktioner
    - Funktioner för rangordningsfönster
    - Generatorfunktioner som returnerar tabellvärden
  Får inte heller expr innehålla någon underfråga.
tabellbegränsning

När du anger ett schema kan du definiera primära och externa nycklar. Begränsningarna är informationsmässiga och tillämpas inte. CONSTRAINT Se satsen i SQL-språkreferensen.

Anmärkning

För att definiera tabellbegränsningar måste pipelinen vara en Unity Catalog-aktiverad pipeline.
tabellklausuler

Du kan också ange partitionering, kommentarer och användardefinierade egenskaper för tabellen. Varje undersats kan endast anges en gång.
- ANVÄNDA DELTA
  
  Anger dataformatet. Det enda alternativet är DELTA.
  
  Den här satsen är valfri och är standard för DELTA.
- Partitionerad efter
  
  En valfri lista över en eller flera kolumner som ska användas för partitionering i tabellen. Ömsesidigt uteslutande med CLUSTER BY.
  
  Flytande klustring ger en flexibel, optimerad lösning för klustring. Överväg att använda CLUSTER BY i stället för PARTITIONED BY för pipelines.
- CLUSTER BY
  
  Aktivera flytande klustring i tabellen och definiera de kolumner som ska användas som klustringsnycklar. Använd automatisk flytande klustring med CLUSTER BY AUTO, och Databricks väljer intelligent klustringsnycklar för att optimera frågeprestanda. Ömsesidigt uteslutande med PARTITIONED BY.
  
  Se Använda flytande klustring för tabeller.
- PLATS
  
  En valfri lagringsplats för tabelldata. Om det inte anges är systemet standard för lagringsplatsen för pipelinen.
- KOMMENTAR
  
  En valfri STRING literal för att beskriva tabellen.
- TBLPROPERTIES
  
  En valfri lista över tabellegenskaper för tabellen.
- MED ROW FILTER
Lägger till en radfilterfunktion i tabellen. Framtida frågor för tabellen tar emot en delmängd av de rader som funktionen utvärderas till TRUE för. Detta är användbart för detaljerad åtkomstkontroll eftersom den gör att funktionen kan kontrollera identitets- och gruppmedlemskapen för den anropande användaren för att avgöra om vissa rader ska filtreras.

Se ROW FILTER-satsen.
- FLÖDE
  
  Du kan också definiera ett flöde infogat i och med att tabellen skapas. Ett flöde är en tillståndskänslig fråga som uppdaterar innehållet i tabellen. Om FLOW inte anges kan du använda AS query i stället eller definiera flöden separat med CREATE FLOW. Du kan ange någon av följande flödestyper:
  - INSERT EFTER NAMN
    
    Infogar data i tabellen efter kolumnnamn. Om alternativet ONCE inte anges måste frågan vara en direktuppspelningsfråga. Använd nyckelordet STREAM för att använda strömmande semantik för att läsa från källan. Om läsningen påträffar en ändring eller borttagning av en befintlig post utlöses ett fel. Det är säkrast att läsa från statiska eller endast tilläggskällor.
    Anmärkning
    
    FLOW INSERT BY NAME motsvarar att använda AS query. Följande två instruktioner har identiskt beteende:
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - En gång
    
    Du kan också definiera flödet som ett engångsflöde, till exempel en återfyllnad. När ONCE anges är frågan inte en strömmande fråga, och flödet körs en gång som standard. Om tabellen uppdateras med en fullständig uppdatering ONCE körs flödet igen för att återskapa data. ONCE gäller endast för INSERT BY NAME flöden.
  - AUTO CDC
    
    Viktigt!
    
    Tillgänglig i Databricks Runtime 17.3 och senare och PREVIEW Pipelines-kanalen.
    
    Definierar ett AUTO CDC flöde som bearbetar CDC-poster (Change Data Capture) från en källa till tabellen. Används AUTO CDC när källdata innehåller CDC-semantik. Se API:er för AUTOMATISK CDC: Förenkla insamling av ändringsdata med pipelines.
  - REPLACE WHEREpredicate BY NAME-fråga
    
    Viktigt!
    
    FLOW REPLACE WHERE är i Beta.
    
    Definierar ett REPLACE WHERE flöde som bara beräknar om och skriver över raderna som matchar predicateoch lämnar alla andra rader orörda. Används REPLACE WHERE för inkrementell batchbearbetning av kopplingar och aggregeringar, för sent ankommande data, schemautveckling och återfyllnad. BY NAME måste anges. Se Batchbearbetning med REPLACE-flödenWHERE.
AS-fråga

Den här satsen fyller i tabellen med hjälp av data från query. Den här frågan måste vara en direktuppspelningsfråga . Använd stream-nyckelordet för att använda strömmande semantik för att läsa från källan. Om läsningen påträffar en ändring eller borttagning av en befintlig post utlöses ett fel. Det är säkrast att läsa från statiska eller endast tilläggskällor. Om du vill mata in data som har ändringsincheckningar kan du lägga till läsalternativet skipChangeCommits för att hantera fel.

När du anger en query och en table_specification tillsammans måste tabellschemat som anges i table_specification innehålla alla kolumner som returneras av query, annars får du ett fel. Alla kolumner som anges i table_specification men som inte returneras av query returnerar null värden när du frågar.

Mer information om strömmande data finns i Transformera data med pipelines.
- Läsalternativ
  
  Du kan ange läsalternativ i frågan för att konfigurera hur data ska läsas från källan. Du kan till exempel ange skipChangeCommits att du vill hoppa över eventuella ändringsincheckningar i källdata. Läsalternativ anges som en karta i WITH frågesatsen. Som exempel:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  Är =TRUE valfritt, så du kan också ange ett booleskt alternativ som det här:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Anmärkning
  
  Läsalternativ stöds endast för Databricks Runtime 17.3 och senare.
  
  Läsalternativen nedan stöds för Delta. Mer information om varje alternativ finns i Delta Lake-tabellströmningsläsningar och skrivningar.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Behörigheter som krävs

Kör som-användaren för en pipeline måste ha följande behörigheter:

SELECT över bastabellerna som refereras av strömningstabellen.
USE CATALOG behörighet i den överordnade katalogen och USE SCHEMA behörighet i det överordnade schemat.
CREATE MATERIALIZED VIEW behörighet i schemat för strömningstabellen.

För att en användare ska kunna uppdatera pipelinen definieras strömningstabellen inom:

USE CATALOG behörighet i den överordnade katalogen och USE SCHEMA behörighet i det överordnade schemat.
Ägarskap för strömningstabellen eller REFRESH behörigheten i strömningstabellen.
Ägaren av strömningstabellen måste ha behörighet SELECT för bastabellerna som strömningstabellen hänvisar till.

För att en användare ska kunna köra frågor mot den resulterande direktuppspelningstabellen behöver de:

USE CATALOG behörighet i den överordnade katalogen och USE SCHEMA behörighet i det överordnade schemat.
SELECT privilegium över strömningstabellen.

Begränsningar

Endast tabellägare kan uppdatera strömmande tabeller för att hämta de senaste data.
ALTER TABLE kommandon tillåts inte för strömmande tabeller. Tabellens definition och egenskaper bör ändras via instruktionen CREATE OR REFRESH eller ALTER STREAMING TABLE.
Det går inte att utveckla tabellschemat via DML-kommandon som INSERT INTOoch MERGE.
Följande kommandon stöds inte i strömmande tabeller:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Det går inte att byta namn på tabellen eller ändra ägaren.

Examples

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Feedback

Var den här sidan till hjälp?

Last updated on 2026-07-22