CREATE STREAMING TABLE (pijplijnen)

Een streaming tabel is een tabel die ondersteuning biedt voor streaming of incrementele gegevensverwerking. Streamingtabellen worden ondersteund door pijplijnen. Elke keer dat een streamingtabel wordt vernieuwd, worden gegevens die aan de brontabellen zijn toegevoegd, toegevoegd aan de streamingtabel. Je kunt streamingtabellen handmatig of volgens een schema verversen.

Zie Een pijplijnupdate uitvoeren voor meer informatie over het uitvoeren of plannen van vernieuwingen.

Syntaxis

CREATE [OR REFRESH] [PRIVATE] STREAMING TABLE
  table_name
  [ table_specification ]
  [ table_clauses ]
  [ {flow_clause | AS query} ]

table_specification
  ( { column_identifier column_type [column_properties] } [, ...]
    [ column_constraint ] [, ...]
    [ , table_constraint ] [...] )

   column_properties
      { NOT NULL | GENERATED ALWAYS AS ( expr ) | GENERATED { ALWAYS | BY DEFAULT } AS IDENTITY [ ( [ START WITH start | INCREMENT BY step ] [ ...] ) ] | DEFAULT default_expression | COMMENT column_comment | column_constraint | MASK clause } [ ... ]

table_clauses
  { USING DELTA
    PARTITIONED BY (col [, ...]) |
    CLUSTER BY clause |
    LOCATION path |
    COMMENT view_comment |
    TBLPROPERTIES clause |
    WITH { ROW FILTER clause } } [ ... ]
   } [ ... ]

flow_clause
  FLOW { { INSERT [ONCE] BY NAME query } |
  { AUTO CDC auto_cdc_flow_spec } |
  { REPLACE WHERE predicate BY NAME query } }

Parameterwaarden

REFRESH

Indien opgegeven, maakt u de tabel of werkt u een bestaande tabel en de inhoud ervan bij.
PRIVÉ

Maakt een privé-streamingtabel aan.
- Ze worden niet toegevoegd aan de catalogus en zijn alleen toegankelijk binnen de definiërende pijplijn
- Ze kunnen dezelfde naam hebben als een bestaand object in de catalogus. Als in de pijplijn een privéstreamingtabel en een object in de catalogus dezelfde naam hebben, worden verwijzingen naar de naam omgezet in de privéstreamingtabel.
- Privé-streamingtabellen worden alleen behouden gedurende de gehele levensduur van de pijplijn, niet alleen tijdens een enkele update.
Private streaming-tabellen werden eerder aangemaakt met de TEMPORARY parameter.
table_name

De naam van de nieuw aangemaakte tabel. De volledig gekwalificeerde tabelnaam moet uniek zijn.
tabelspecificatie

Deze optionele component definieert de lijst met kolommen, hun typen, eigenschappen, beschrijvingen en kolombeperkingen.
- column_identifier
  
  De kolomnamen moeten uniek zijn en corresponderen met de uitvoerkolommen van de query.
- column_type
  
  Hiermee geeft u het gegevenstype van de kolom op. Niet alle gegevenstypen die door Azure Databricks worden ondersteund, worden ondersteund door streamingtabellen.
- column_comment
  
  Een optionele STRING literal die de kolom beschrijft. Deze optie moet gespecificeerd worden samen met column_type. Als het kolomtype niet is opgegeven, wordt de kolomopmerking overgeslagen.
- ALTIJD GEGENEREERD ALS ( expr )
  
  Wanneer u deze clausule opgeeft, wordt de waarde van deze kolom bepaald door de opgegeven expr.
  
  De DEFAULT COLLATION van de tabel moet UTF8_BINARYzijn.
  
  expr kan bestaan uit letterlijke waarden, kolom-id's in de tabel en deterministische, ingebouwde SQL-functies of -operators, met uitzondering van:
  - Aggregerende functies
  - Analytische vensterfuncties
  - Rangschikkende vensterfuncties
  - Generatorfuncties voor tabelwaarden
  - Kolommen met een andere sortering dan UTF8_BINARY
  Mag ook expr geen subquery bevatten.
- GEGENEREERD { ALWAYS | BIJ DEFAULT } AS IDENTITY [ ( [ STARTEN MET start ] [ VERHOGEN MET stap ] ) ]
  
  Van toepassing op: Databricks SQL Databricks Runtime 10.4 LTS en hoger
  
  Definieert een identiteitskolom. Wanneer u naar de tabel schrijft en geen waarden opgeeft voor de identiteitskolom, wordt automatisch een unieke en statistisch stijgende waarde toegewezen (of afnemend als step negatief is). Deze component wordt alleen ondersteund voor Delta-tabellen. Deze component kan alleen worden gebruikt voor kolommen met het gegevenstype BIGINT.
  
  De automatisch toegewezen waarden beginnen met start en verhogen met step. Toegewezen waarden zijn uniek, maar zijn niet gegarandeerd aaneengesloten. Beide parameters zijn optioneel en de standaardwaarde is 1. step kan niet zijn 0.
  
  Als de automatisch toegewezen waarden buiten het bereik van het type identiteitskolom vallen, mislukt de query.
  
  Wanneer ALWAYS wordt gebruikt, kunt u uw eigen waarden voor de identiteitskolom niet opgeven.
  
  De volgende bewerkingen worden niet ondersteund:
  - PARTITIONED BY een identiteitskolom
  - UPDATE een identiteitskolom
  Opmerking
  
  Als u een identiteitskolom in een tabel declareert, worden gelijktijdige transacties uitgeschakeld. Gebruik alleen identiteitskolommen in gebruiksvoorbeelden waarbij gelijktijdige schrijfbewerkingen naar de doeltabel niet vereist zijn.
- standaardwaarde default_expression
  
  Van toepassing op: Databricks SQL Databricks Runtime 11.3 LTS en hoger
  
  Definieert een DEFAULT waarde voor de kolom die wordt gebruikt voor INSERT, UPDATEen MERGE ... INSERT wanneer de kolom niet is opgegeven.
  
  Als er geen standaardwaarde is opgegeven DEFAULT NULL wordt toegepast op null-kolommen.
  
  default_expression kan bestaan uit letterlijke waarden en ingebouwde SQL-functies of -operators, met uitzondering van:
  - Aggregerende functies
  - Analytische vensterfuncties
  - Rangschikkende vensterfuncties
  - Generatorfuncties voor tabelwaarden
  Mag ook default_expression geen subquery bevatten.
  
  DEFAULTwordt ondersteund voor CSV, JSONen PARQUETORC bronnen.
- column_constraint
  
  Voegt een informatieve primaire sleutel of informatieve refererende sleutelbeperking toe aan de kolom in een streamingtabel.
- MASK-clausule
  
  Voegt een kolommaskerfunctie toe om gevoelige gegevens anoniem te maken.
  
  Zie rijfilters en kolommaskers.
- CONSTRAINT expectation_name VERWACHTEN (expectation_expr) [ BIJ SCHENDING { FAIL UPDATE | DROP ROW } ]
  
  Voegt de verwachtingen voor gegevenskwaliteit toe aan de streamingtabel. Deze verwachtingen voor gegevenskwaliteit kunnen in de loop van de tijd worden bijgehouden en worden geopend via het gebeurtenislogboek van de streamingtabel. Een FAIL UPDATE verwachting zorgt ervoor dat de verwerking mislukt bij het maken van de tabel en het vernieuwen van de tabel. Een DROP ROW verwachting zorgt ervoor dat de hele rij wordt verwijderd als niet aan de verwachting wordt voldaan. Zie Gegevenskwaliteit beheren met de verwachtingen van pijplijnen.
  
  expectation_expr kan bestaan uit letterlijke waarden, kolom-id's in de tabel en deterministische, ingebouwde SQL-functies of -operators, met uitzondering van:
  - Aggregerende functies
    - Analytische vensterfuncties
    - Rangschikkende vensterfuncties
    - Generatorfuncties voor tabelwaarden
  Mag ook expr geen subquery bevatten.
tabelbeperking

Wanneer u een schema opgeeft, kunt u primaire en vreemde sleutels definiëren. De beperkingen zijn informatief en worden niet afgedwongen. Zie de CONSTRAINT clausule in de SQL-taalreferentie.

Opmerking

Als u tabelbeperkingen wilt definiëren, moet uw pijplijn een Unity Catalog-pijplijn zijn.
tabel_clausules

Geef optioneel partitionering, opmerkingen en door de gebruiker gedefinieerde eigenschappen voor de tabel op. Elke subclausule mag slechts eenmaal worden gespecificeerd.
- DELTA GEBRUIKEN
  
  Hiermee geeft u de gegevensindeling op. De enige optie is DELTA.
  
  Deze component is optioneel en standaard ingesteld op DELTA.
- GEPARTITIONEERD PER
  
  Een optionele lijst met een of meer kolommen die moeten worden gebruikt voor partitionering in de tabel. Wederzijds uitsluiten met CLUSTER BY.
  
  Liquid clustering biedt een flexibele, geoptimaliseerde oplossing voor clustering. Overweeg het gebruik CLUSTER BY in plaats van PARTITIONED BY voor pijplijnen.
- CLUSTER BY
  
  Schakel vloeistofclustering in de tabel in en definieer de kolommen die moeten worden gebruikt als clustersleutels. Gebruik automatische liquide clustering met CLUSTER BY AUTOen Databricks kiest op intelligente wijze clusteringsleutels om de queryprestaties te optimaliseren. Wederzijds uitsluiten met PARTITIONED BY.
  
  Zie Liquid Clustering gebruiken voor tabellen.
- PLAATS
  
  Een optionele opslaglocatie voor tabelgegevens. Als dit niet is ingesteld, wordt het systeem standaard ingesteld op de opslaglocatie van de pijplijn.
- COMMENTAAR
  
  Een optionele STRING literal om de tabel te beschrijven.
- TBLPROPERTIES
  
  Een optionele lijst met tabeleigenschappen voor de tabel.
- MET ROW FILTER
Hiermee voegt u een rijfilterfunctie toe aan de tabel. Toekomstige query's voor die tabel ontvangen een subset van de rijen waarvoor de functie de waarde WAAR oplevert. Dit is handig voor gedetailleerd toegangsbeheer, omdat hiermee de functie de identiteit en groepslidmaatschappen van de aanroepende gebruiker kan inspecteren om te bepalen of bepaalde rijen moeten worden gefilterd.

Zie ROW FILTER clausule.
- STROOM
  
  Definieert desgewenst een stroom inline bij het maken van de tabel. Een stroom is een stateful query waarmee de inhoud van de tabel wordt vernieuwd. Als FLOW dit niet is opgegeven, kunt u in plaats daarvan stromen gebruiken AS query of afzonderlijk definiëren met CREATE FLOW. U kunt een van de volgende stroomtypen opgeven:
  - INSERT OP NAAM
    
    Hiermee voegt u gegevens in de tabel in op kolomnaam. Als de ONCE optie niet is opgegeven, moet de query een streamingquery zijn. Gebruik het STREAM trefwoord om streamingsemantiek toe te passen en uit de bron te lezen. Als de leesbewerking een wijziging of verwijdering van een bestaande record tegenkomt, wordt er een fout gegenereerd. Het is het veiligst om te lezen uit statische of alleen bij te voegen bronnen.
    Opmerking
    
    FLOW INSERT BY NAME is gelijk aan het gebruik van AS query. De volgende twee instructies hebben hetzelfde gedrag:
```
CREATE OR REFRESH STREAMING TABLE raw_data
AS SELECT * FROM STREAM read_files('abfss://my_path');

CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');
```
  - EENMAAL
    
    U kunt de stroom desgewenst definiëren als een eenmalige stroom, zoals een backfill. Wanneer ONCE deze wordt opgegeven, is de query geen streamingquery en wordt de stroom standaard eenmalig uitgevoerd. Als de tabel wordt vernieuwd met een volledige vernieuwing, wordt de ONCE stroom opnieuw uitgevoerd om de gegevens opnieuw te maken. ONCE geldt alleen voor INSERT BY NAME stromen.
  - AUTO CDC
    
    Belangrijk
    
    Beschikbaar in Databricks Runtime 17.3 en hoger en het PREVIEW pijplijnkanaal.
    
    Definieert een AUTO CDC stroom waarmee CDC-records (Change Data Capture) van een bron in de tabel worden verwerkt. Gebruik AUTO CDC deze functie wanneer de brongegevens CDC-semantiek bevatten. Zie de AUTO CDC-API's: Het vastleggen van wijzigingsgegevens vereenvoudigen met pijplijnen.
  - WHERE VERVANGEN DOOR NAAM-query
    
    Belangrijk
    
    FLOW REPLACE WHERE is in bèta.
    
    Hiermee definieert u een REPLACE WHERE stroom waarmee alleen de overeenkomende rijen predicateopnieuw worden gecomputeerd en overschreven, waardoor alle andere rijen ongewijzigd blijven. Wordt gebruikt REPLACE WHERE voor incrementele batchverwerking van joins en aggregaties, late binnenkomende gegevens, schemaontwikkeling en backfills. BY NAME is vereist. Zie Batchverwerking met REPLACE-stromenWHERE.
AS-query

Met deze clausule wordt de tabel gevuld met behulp van de gegevens uit query. Deze query moet een streamingquery zijn. Gebruik het trefwoord STREAM om streaming-semantiek te gebruiken om uit de bron te lezen. Als de leesbewerking een wijziging of verwijdering van een bestaande record tegenkomt, wordt er een fout gegenereerd. Het is het veiligst om te lezen uit statische of alleen bij te voegen bronnen. Als u gegevens wilt opnemen die wijzigingen doorvoeren, kunt u de skipChangeCommits leesoptie toevoegen om fouten te verwerken.

Wanneer u een query en een table_specification samen opgeeft, moet het tabelschema dat is opgegeven in table_specification alle kolommen bevatten die door de queryworden geretourneerd, anders krijgt u een foutmelding. Kolommen die zijn opgegeven in table_specification maar niet worden geretourneerd door query geven null-waarden terug bij een query.

Zie Gegevens transformeren met pijplijnenvoor meer informatie over het streamen van gegevens.
- Leesopties
  
  U kunt leesopties opgeven in de query om te configureren hoe gegevens uit de bron worden gelezen. U kunt bijvoorbeeld opgeven skipChangeCommits dat u wijzigingen doorvoert in de brongegevens. Leesopties worden opgegeven als een kaart in de component van de WITH query. Voorbeeld:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS=TRUE, STARTINGVERSION=X)
```
  De =TRUE optie is optioneel, zodat u ook een booleaanse optie als volgt kunt opgeven:
```
SELECT * FROM STREAM source_table WITH (SKIPCHANGECOMMITS)
```
  Opmerking
  
  Leesopties worden alleen ondersteund voor Databricks Runtime 17.3 en hoger.
  
  De onderstaande leesopties worden ondersteund voor Delta, voor meer informatie over elke optie, raadpleegt u lees- en schrijfbewerkingen voor Delta Lake-tabellen.
  - maxFilesPerTrigger
  - maxBytesPerTrigger
  - startingVersion
  - startingTimestamp
  - readChangeFeed
  - withEventTimeOrder
  - skipChangeCommits

Vereiste toestemmingen

De run-as-gebruiker voor een pijplijn moet de volgende machtigingen hebben:

SELECT privilege over de basistabellen die door de streaming tabel worden gerefereerd.
USE CATALOG bevoegdheid voor de bovenliggende catalogus en USE SCHEMA bevoegdheid voor het bovenliggende schema.
CREATE MATERIALIZED VIEW privilege op het schema voor de streamingtabel.

Om ervoor te zorgen dat een gebruiker de pijplijn kan updaten waarin de streamingtabel is gedefinieerd, is het volgende vereist:

USE CATALOG bevoegdheid voor de bovenliggende catalogus en USE SCHEMA bevoegdheid voor het bovenliggende schema.
Eigendom van de streamingtabel of REFRESH bevoegdheid voor de streamingtabel.
De eigenaar van de streamingtabel moet de SELECT-machtiging hebben over de basistabellen waarnaar de streamingtabel verwijst.

Om een gebruiker in staat te stellen de resulterende streamingtabel te raadplegen, hebben ze het volgende nodig:

USE CATALOG bevoegdheid voor de bovenliggende catalogus en USE SCHEMA bevoegdheid voor het bovenliggende schema.
SELECT privilege over de streamingtabel.

Beperkingen

Alleen eigenaren van tabellen kunnen streamingtabellen vernieuwen om de meest recente gegevens op te halen.
ALTER TABLE opdrachten zijn niet toegestaan voor streamingtabellen. De definitie en eigenschappen van de tabel moeten worden gewijzigd via de instructie CREATE OR REFRESH of ALTER STREAMING TABLE.
Het tabelschema ontwikkelen via DML-opdrachten zoals INSERT INTOen MERGE wordt niet ondersteund.
De volgende opdrachten worden niet ondersteund voor streamingtabellen:
- CREATE TABLE ... CLONE <streaming_table>
- COPY INTO
- ANALYZE TABLE
- RESTORE
- TRUNCATE
- GENERATE MANIFEST
- [CREATE OR] REPLACE TABLE
Het wijzigen van de naam van de tabel of het wijzigen van de eigenaar wordt niet ondersteund.

Voorbeelden

-- Define a streaming table from a volume of files:
CREATE OR REFRESH STREAMING TABLE customers_bronze
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a streaming table from a streaming source table:
CREATE OR REFRESH STREAMING TABLE customers_silver
AS SELECT * FROM STREAM(customers_bronze)

-- Use automatic liquid clustering to let Databricks choose the clustering columns:
CREATE OR REFRESH STREAMING TABLE customers_bronze_auto
CLUSTER BY AUTO
AS SELECT * FROM STREAM read_files("/databricks-datasets/retail-org/customers/*", format => "csv")

-- Define a table with a row filter and column mask:
CREATE OR REFRESH STREAMING TABLE customers_silver (
  id int COMMENT 'This is the customer ID',
  name string,
  region string,
  ssn string MASK catalog.schema.ssn_mask_fn COMMENT 'SSN masked for privacy'
)
WITH ROW FILTER catalog.schema.us_filter_fn ON (region)
AS SELECT * FROM STREAM(customers_bronze)

-- Define a streaming table with an identity column:
CREATE OR REFRESH STREAMING TABLE customers_with_id (
  customer_id BIGINT GENERATED ALWAYS AS IDENTITY,
  name string,
  region string
)
AS SELECT name, region FROM STREAM(customers_bronze)

-- Define a streaming table that you can add flows into:
CREATE OR REFRESH STREAMING TABLE orders;

-- Define a streaming table with an inline append flow:
CREATE OR REFRESH STREAMING TABLE raw_data
FLOW INSERT BY NAME SELECT * FROM STREAM read_files('abfss://my_path');

-- Define a streaming table with an inline AUTO CDC flow:
CREATE OR REFRESH STREAMING TABLE target
FLOW AUTO CDC
FROM stream(cdc_data.users)
KEYS (userId)
SEQUENCE BY sequenceNum
STORED AS SCD TYPE 1;

Feedback

Is deze pagina nuttig?

Last updated on 2026-07-22