Schema för pipelinehändelselogg

Händelseloggen för pipelinen innehåller all information som rör en pipeline, inklusive granskningsloggar, datakvalitetskontroller, pipelineförlopp och data härkomst.

Följande tabeller beskriver händelseloggschemat. Vissa av dessa fält innehåller JSON-data som kräver parsning för att utföra vissa frågor, till exempel fältet details. Azure Databricks stöder :-operatorn för att parsa JSON-fält. Se : (kolon) operatör.

Anmärkning

Vissa fält i händelseloggen är för intern användning av Azure Databricks. I följande dokumentation beskrivs de fält som är avsedda för kundförbrukning.

Mer information om hur du använder pipelinehändelseloggen finns i Händelselogg för pipeline.

PipelineEvent-objekt

Representerar en enskild pipelinehändelse i händelseloggen.

Fält Description
id En unik identifierare för händelseloggposten.
sequence En JSON-sträng som innehåller metadata för att identifiera och beställa händelser.
origin En JSON-sträng som innehåller metadata för händelsens ursprung, till exempel molnleverantören, molnleverantörens region, användare och pipelineinformation. Se Origin-objekt.
timestamp Den tid då händelsen spelades in, i UTC.
message Ett läsbart meddelande som beskriver händelsen.
level Varningsnivån. Möjliga värden är:
  • INFO: Informationsevenemang
  • WARN: Oväntade, men icke-kritiska problem
  • ERROR: Händelsefel som kan behöva användarens uppmärksamhet
  • METRICS: Används för händelser med stora volymer som endast lagras i deltatabellen och som inte visas i pipelinegränssnittet.
maturity_level Händelseschemats stabilitet. Möjliga värden är:
  • STABLE: Schemat är stabilt och ändras inte.
  • NULL: Schemat är stabilt och ändras inte. Värdet kan vara NULL om posten skapades innan fältet maturity_level lades till (version 2022.37).
  • EVOLVING: Schemat är inte stabilt och kan ändras.
  • DEPRECATED: Schemat är inaktuellt och Lakeflow Spark Deklarativa pipelines-körningen kan sluta producera den här händelsen när som helst.

Vi rekommenderar inte att du skapar övervakning eller aviseringar baserat på EVOLVING eller DEPRECATED fält.
error Om ett fel har uppstått finns information som beskriver felet.
details En JSON-sträng som innehåller strukturerad information om händelsen. Det här är det primära fältet som används för att analysera händelser. JSON-strängformatet beror på event_type. Mer information finns i Informationsobjektet .
event_type Händelsetyp En lista över händelsetyper och vilken informationsobjekttyp de skapar finns i Informationsobjektet.

Detaljerobjektet

Varje händelse har olika details egenskaper i JSON-objektet, baserat på event_type händelsens. I den här tabellen visas event_type och tillhörande details. Egenskaperna details beskrivs i avsnittet Informationstyper .

Informationstyp efter event_type Description
create_update Samlar in den fullständiga konfiguration som används för att starta en pipelineuppdatering. Innehåller alla konfigurationsuppsättningar från Databricks. Mer information finns i Information om create_update.
user_action Innehåller information om alla användaråtgärder i pipelinen (inklusive att skapa en pipeline samt starta eller avbryta en uppdatering). Mer information finns i Information om user_action händelse.
flow_progress Beskriver livscykeln för ett flöde från start, körning till slutförd eller misslyckad. Mer information finns i Information om flow_progress händelse.
update_progress Beskriver livscykeln för en pipelineuppdatering från start, körning, slutförande eller misslyckad. Mer information finns i Information om update_progress händelse.
flow_definition Definierar schemat och frågeplanen för eventuella transformeringar som inträffar i ett visst flöde. Kan ses som kanterna på Dataflow DAG. Den kan användas för att beräkna linjen for varje flöde samt för att se den visade frågeplanen. Mer information finns i Information om flow_definition händelse.
dataset_definition Definierar en datauppsättning, som antingen är källan eller målet för ett visst flöde. Mer information finns i Information om dataset_definition händelse.
sink_definition Definierar en given mottagare. Mer information finns i Information om sink_definition händelse.
deprecation Visar en lista över funktioner som snart eller för närvarande är inaktuella som den här pipelinen använder. Exempel på värden finns i Details enum för avvecklingshändelse.
cluster_resources Innehåller information om klusterresurser för pipelines som körs på klassisk databehandling. Dessa mått fylls bara i för klassiska beräkningspipelines. Mer information finns i Information om cluster_resources händelse.
autoscale Innehåller information om automatisk skalning för pipelines som körs på klassisk beräkning. Dessa mått fylls bara i för klassiska beräkningspipelines. Mer information finns i Information om autoskalningshändelse.
planning_information Representerar planeringsinformation som rör materialiserad vy inkrementell jämfört med fullständig uppdatering. Kan användas för att få mer information om varför en materialiserad vy beräknas om helt. Mer information finns under Detaljer för planning_information-händelse.
hook_progress En händelse som anger den aktuella statusen för en användarkrok under pipelinekörningen. Används för att övervaka status för händelsekrokar, till exempel för att skicka till externa observationsverktyg. Mer information finns i Information om hook_progress händelse.
operation_progress Innehåller information om förloppet för en åtgärd. Mer information finns i Information om operation_progress händelse.
stream_progress Innehåller information om utvecklingen av en pipeline. Mer information finns i Information om stream_progress händelse.

Detaljtyper

Följande objekt representerar details en annan händelsetyp i PipelineEvent objektet.

Information om create_update

Information om create_update händelsen.

Fält Description
dbr_version Versionen av Databricks Runtime.
run_as Det användar-ID som uppdateringen ska köras för. Detta är vanligtvis antingen ägaren av pipelinen eller ett huvudnamn för tjänsten.
cause Orsaken till uppdateringen. Vanligtvis antingen JOB_TASK om de körs från ett jobb eller USER_ACTION när de körs interaktivt av en användare.

Information om user_action händelse

Information om user_action händelsen. Innehåller följande fält:

Fält Description
user_name Namnet på den användare som utlöste en pipelineuppdatering.
user_id ID för användaren som utlöste en pipelineuppdatering. Detta är inte alltid detsamma som användaren run_as , vilket kan vara tjänstens huvudnamn eller annan användare.
action Åtgärden som användaren vidtog, inklusive START och CREATE.

Information om flow_progress händelse

Information om en flow_progress händelse.

Fält Description
status Flödets nya status. Kan vara något av:
  • QUEUED
  • STARTING
  • RUNNING
  • COMPLETED
  • FAILED
  • SKIPPED
  • STOPPED
  • IDLE
  • EXCLUDED
metrics Metrik av flödet. Mer information finns i FlowMetrics.
data_quality Datakvalitetsmått om flödet och tillhörande förväntningar. Mer information finns i DataQualityMetrics.

Information om update_progress händelse

Information om en update_progress händelse.

Fält Description
state Den nya statusen för uppdateringen. Kan vara något av:
  • QUEUED
  • CREATED
  • WAITING_FOR_RESOURCES
  • INITIALIZING
  • RESETTING
  • SETTING_UP_TABLES
  • RUNNING
  • STOPPING
  • COMPLETED
  • FAILED
  • CANCELED

Användbart för att beräkna varaktigheten för olika steg i en pipelineuppdatering från total varaktighet till tid som lagts på att vänta på resurser, till exempel.
cancellation_cause Anledningen till att en uppdatering angav tillståndet CANCELED . Innehåller orsaker som USER_ACTION eller WORKFLOW_CANCELLATION (arbetsflödet som utlöste uppdateringen avbröts).

Information om flow_definition händelse

Information om en flow_definition händelse.

Fält Description
input_datasets Indata som läses i det här flödet.
output_dataset Utdatauppsättningen som detta flöde skriver till.
output_sink Utdatamottagaren som detta flöde skriver till.
explain_text Den förklarade frågeplanen.
schema_json Spark SQL JSON-schemasträng.
schema Schema för det här flödet.
flow_type Typ av flöde. Kan vara något av:
  • COMPLETE: Streamingtabel skriver till destinationen i komplett (streaming) läge.
  • CHANGE: Strömmande tabell användande av APPLY_CHANGES_INTO.
  • SNAPSHOT_CHANGE: Strömmande tabell användande av APPLY CHANGES INTO ... FROM SNAPSHOT ....
  • APPEND: Strömningstabellen skriver till målet i tilläggsläge (direktuppspelning).
  • MATERIALIZED_VIEW: Utdata till en materialiserad vy.
  • VIEW: Utdata skickas till en vy.
comment Användarkommentare eller beskrivning om datauppsättningen.
spark_conf Spark-konfigurationer har angetts för det här flödet.
language Det språk som används för att skapa det här flödet. Kan vara SCALA, PYTHONeller SQL.
once Om det här flödet är deklarerat att endast köras en gång.

Information om dataset_definition händelse

Information om en dataset_definition händelse. Innehåller följande fält:

Fält Description
dataset_type Skiljer mellan materialiserade vyer och strömmande tabeller.
num_flows Antalet flöden som skriver till datamängden.
expectations De förväntningar som är associerade med datamängden.

Information om sink_definition händelse

Information om en sink_definition händelse.

Fält Description
format Formatet på sinken.
options Nyckel/värde-alternativen som är associerade med datasänkan.

Information om utfasningshändelse

Händelsen deprecation har ett message fält. Möjliga värden för message inkluderar följande. Det här är en partiell lista som växer med tiden.

Fält Description
TABLE_MANAGED_BY_MULTIPLE_PIPELINES En tabell hanteras av flera pipelines.
INVALID_CLUSTER_LABELS Använda klusteretiketter som inte stöds.
PINNED_DBR_VERSION Använda dbr_version i stället för channel i pipelineinställningar.
PREVIOUS_CHANNEL_USED Använd versionskanalen PREVIOUS, som kan försvinna i en framtida uppdatering.
LONG_DATASET_NAME Använda ett datauppsättningsnamn som är längre än den längd som stöds.
LONG_SINK_NAME Att använda ett mottagarnamn som är längre än vad som stöds av systemet.
LONG_FLOW_NAME Använd ett flödesnamn som är längre än den längd som stöds.
ENHANCED_AUTOSCALING_POLICY_COMPLIANCE Klusterprincipen uppfylls endast när Utökad autoskalning använder fast klusterstorlek.
DATA_SAMPLE_CONFIGURATION_KEY Konfigurationsnyckeln för att konfigurera datasampling är inaktuell.
INCOMPATIBLE_CLUSTER_SETTINGS Aktuella klusterinställningar eller klusterpolicyer är inte längre kompatibla med Lakeflow Spark Declarative Pipelines.
STREAMING_READER_OPTIONS_DROPPED Använda alternativ för direktuppspelningsläsare som tas bort.
DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG Det är inte tillåtet att ange statiska Spark-konfigurationer via pipelinekonfiguration för serverlösa pipelines.
INVALID_SERVERLESS_PIPELINE_CONFIG Serverlös kund tillhandahåller ogiltig pipelinekonfiguration.
UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE Ange oanvända explicita tabellsökvägar i UC-hanterade tabeller.
FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE Den angivna foreachBatch-funktionen kan inte serialiseras.
DROP_PARTITION_COLS_NO_PARTITIONING Om du tar bort attributet partition_cols resulterar det i ingen partitionering.
PYTHON_CREATE_TABLE Använda @dlt.create\_table i stället för @dp.table eller @dp.materialized\_view.
PYTHON_CREATE_VIEW Använda @dlt.create\_view i stället för @dp.temporary\_view.
PYTHON_CREATE_STREAMING_LIVE_TABLE Använda create_streaming_live_table i stället för create_streaming_table.
PYTHON_CREATE_TARGET_TABLE Använda create_target_table i stället för create_streaming_table.
FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE Uppsättningen tabeller som hanteras av pipelinen har en cykel i uppsättningen med begränsningar för sekundärnyckel.
PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE En delvis kvalificerad tabellreferens som har olika betydelser i standardpubliceringsläge och äldre publiceringsläge.

Information om cluster_resources händelse

Information om en cluster_resources händelse. Gäller endast för pipelines som körs på klassiska datorresurser.

Fält Description
task_slot_metrics Mätvärden för uppgiftsplatser i klustret. Mer information finns i TaskSlotMetrics-objektet
autoscale_info Tillståndet av autoskalers Mer information finns i AutoscaleInfo-objekt

Information om autoskalningshändelse

Information om en autoscale händelse. Autoskalningshändelser gäller endast när pipelinen använder klassisk beräkning.

Fält Description
status Status för den här händelsen. Kan vara något av:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Det optimala antalet exekutorer som föreslås av algoritmen innan tillämpning av min_workers och max_workers begränsningar.
requested_num_executors Antalet utförare efter att det optimala antalet utförare som föreslås av algoritmen har beskärts till min_workers och max_workers gränserna.

Information om planning_information händelse

Information om en planning_information händelse. Användbart för att se information om den valda uppdateringstypen för ett visst flöde under en uppdatering. Kan användas för att felsöka varför en uppdatering uppdateras helt i stället för att uppdateras stegvis. Mer information om inkrementella uppdateringar finns i Inkrementell uppdatering för materialiserade vyer

Fält Description
technique_information Uppdateringsrelaterad information. Den innehåller både information om vilken uppdateringsmetod som valdes och de möjliga uppdateringsmetoder som övervägdes. Användbart för felsökning av varför en materialiserad vy inte kunde inkrementelliseras. Mer information finns i TechniqueInformation.
source_table_information Information om källtabell Kan vara användbart för felsökning av varför en materialiserad vy inte kunde inkrementelliseras. Mer information finns i TableInformation-objektet.
target_table_information Måltabellinformation. Mer information finns i TableInformation-objektet.

Information om hook_progress händelse

Information om en hook_progress händelse. Innehåller följande fält:

Fält Description
name Namnet på användarhooken.
status Status för användarhaken.

Information om operation_progress händelse

Information om en operation_progress händelse. Innehåller följande fält:

Fält Description
type Typ av operation som spåras. En av:
  • AUTO_LOADER_LISTING
  • AUTO_LOADER_BACKFILL
  • CONNECTOR_FETCH
  • CDC_SNAPSHOT
status Status för åtgärden. En av:
  • STARTED
  • COMPLETED
  • CANCELED
  • FAILED
  • IN_PROGRESS
duration_ms Den totala förflutna tiden för åtgärden i millisekunder. Ingår endast i sluthändelsen (där status är COMPLETED, CANCELEDeller FAILED).

Information om stream_progress händelse

Information om en stream_progress händelse. Innehåller följande fält:

Fält Description
stream_progress Detaljer om pipeline-flödet. Liknar måtten StreamingQueryListener för strukturerad direktuppspelning.
Skillnaderna beskrivs i följande stycken. Fullständig dokumentation om StreamingQueryListener mått finns i StreamingQueryListener-objektmått.

Skillnader mellan stream_progress och StreamingQueryListener objektmått:

  • Följande mått finns i StreamingQueryListener, men inte i stream_progress: numInputRows, inputRowsPerSecondoch processedRowsPerSecond.
  • För Kafka- och Kineses-strömmar kan fälten startOffset, endOffsetoch latestOffset vara för stora och trunkerade. För varje av dessa fält läggs ett ytterligare fält, ...Truncated, startOffsetTruncated, endOffsetTruncated och latestOffsetTruncated, till med ett booleskt värde för om data är trunkerad.

Andra objekt

Följande objekt representerar ytterligare data eller uppräkningar i händelseobjekten.

AutoscaleInfo-objekt

Metrik för automatisk skalning för en kluster. Gäller endast för pipelines som körs på klassiska datorresurser.

Fält Description
state Autoskalningsstatus. Kan vara något av:
  • SUCCEEDED
  • RESIZING
  • FAILED
  • PARTIALLY_SUCCEEDED
optimal_num_executors Det optimala antalet utförare. Det här är den optimala storlek som föreslås av algoritmen innan den trunkeras av det användardefinierade minsta/högsta antalet exekutorer.
latest_requested_num_executors Antalet utförare som begärts från klusterhanteraren av tillståndshanteraren i den senaste begäran. Det här är antalet utförare som tillståndshanteraren försöker skala till och uppdateras när tillståndshanteraren försöker avsluta skalningstillståndet i händelse av tidsgränser. Det här fältet fylls inte i om det inte finns någon väntande begäran.
request_pending_seconds Hur lång tid en skalningsbegäran har varit pågående. Detta fylls inte i om det inte finns någon väntande begäran.

CostModelRejectionSubType-objekt

En uppräkning av orsaker till att inkrementellisering avvisas, baserat på kostnaden för fullständig uppdatering jämfört med inkrementell uppdatering i en planning_information händelse.

Värde Description
NUM_JOINS_THRESHOLD_EXCEEDED Uppdatera helt eftersom frågan innehåller för många kopplingar.
CHANGESET_SIZE_THRESHOLD_EXCEEDED Uppdatera helt eftersom för många rader i bastabellerna har ändrats.
TABLE_SIZE_THRESHOLD_EXCEEDED Uppdatera helt eftersom bastabellens storlek överskred tröskelvärdet.
EXCESSIVE_OPERATOR_NESTING Uppdatera fullständigt eftersom frågedefinitionen är komplex och har många nivåer av operatorkapsling.
COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED Återställ helt av någon annan anledning.

DataQualityMetrics-objekt

Mått om hur förväntningarna uppfylls i flödet. Används i händelsedetaljer flow_progress.

Fält Description
dropped_records Antalet poster som togs bort eftersom de inte uppfyllde ett eller flera krav.
expectations Mätvärden för förväntningar som lagts till i datamängder inom flödets frågeplan. När det finns flera förväntningar kan detta användas för att spåra vilka förväntningar som uppfylldes eller misslyckades. Mer information finns i ExpectationMetrics-objektet.

ExpectationMetrics-objekt

Mätvärden om förväntningar, för en specifik förväntning.

Fält Description
name Namnet på förväntningen.
dataset Namnet på datauppsättningen som förväntan lades till i.
passed_records Antalet poster som klarar förväntningarna.
failed_records Antalet poster som misslyckas med att uppfylla förväntningen. Spårar om förväntningarna har uppfyllts, men beskriver inte vad som händer med posterna (varningar, fel eller borttagna poster).

FlowMetrics-objekt

Mätvärden för flödet, inklusive både totalt för flödet och uppdelat efter specifika källor. Används i händelsedetaljer flow_progress.

Varje strömmande källa stöder endast specifika flödesmått. I följande tabell visas de mått som är tillgängliga för strömmande källor som stöds:

källa kvarvarande byte posterna i kvarvarande uppgifter kösekunder kvarvarande filer
Kafka
Kinesis
Delta
Automatisk Laddare
Google Pub/Sub
Fält Description
num_output_rows Antal rader som skrivits ut av en uppdatering av det här flödet.
backlog_bytes Total kvarvarande uppgifter som byte för alla indatakällor i flödet.
backlog_records Totalt antal kvarvarande poster för alla indatakällor i flödet.
backlog_files Totalt antal kvarvarande filer i alla indatakällor i flödet.
backlog_seconds Maximalt antal kvarvarande sekunder för alla indatakällor i flödet.
executor_time_ms Summan av alla exekveringstider för uppgifter i detta flöde i millisekunder under rapportperioden.
executor_cpu_time_ms Summan av alla CPU-tider för körning av uppgifter i millisekunder i det här flödet under rapporteringsperioden.
num_upserted_rows Antal utdatarader som har utökats till datauppsättningen genom en uppdatering av det här flödet.
num_deleted_rows Antal befintliga utdatarader som tagits bort från datauppsättningen genom en uppdatering av det här flödet.
num_output_bytes Antal utdatabyte som skrivits av en uppdatering av det här flödet.
source_metrics Mått för varje indatakälla i flödet. Användbart för övervakning av inmatningsförlopp från källor utanför Lakeflow Sparks deklarativa pipelines (exempelvis Apache Kafka, Pulsar eller Auto Loader). Innehåller fälten:
  • source_name: Källans namn.
  • backlog_bytes: Backlog i byte för den här källan.
  • backlog_records: Kvarvarande poster för den här källan.
  • backlog_files: Kvarvarande filer för den här källan.
  • backlog_seconds: Fördröjningssekunder för den här källan.

IncrementalizationIssue-objekt

Representerar problem med inkrementalisering som kan orsaka en fullständig omladdning när du planerar en uppdatering.

Fält Description
issue_type En problemtyp som kan förhindra att den materialiserade vyn inkrementelliseras. Mer information finns i Problemtyp.
prevent_incrementalization Om det här problemet förhindrade inkrementelliseringen.
table_information Tabellinformation som är associerad med problem som CDF_UNAVAILABLE, INPUT_NOT_IN_DELTA, DATA_FILE_MISSING.
operator_name Planrelaterad information. Ange problem för vilka problemtypen antingen är PLAN_NOT_DETERMINISTIC eller PLAN_NOT_INCREMENTALIZABLE, till den operator eller det uttryck som orsakar icke-determinism eller icke-inkrementalitet.
expression_name Namn på uttrycket.
join_type Extra information när operatorn är en join. Till exempel JOIN_TYPE_LEFT_OUTER eller JOIN_TYPE_INNER.
plan_not_incrementalizable_sub_type Detaljerad kategori när problemtypen är PLAN_NOT_INCREMENTALIZABLE. Mer information finns i PlanNotIncrementalizableSubType-objektet.
plan_not_deterministic_sub_type Detaljerad kategori när problemtypen är PLAN_NOT_DETERMINISTIC. Mer information finns i PlanNotDeterministicSubType-objektet.
fingerprint_diff_before Skillnaden från fingeravtrycket tidigare.
fingerprint_diff_current Differensen från det aktuella fingeravtrycket.
cost_model_rejection_subtype Detaljerad kategori när problemtypen är INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL. Mer information finns i Objektet CostModelRejectionSubType.

IssueType-objekt

En uppräkning av problemtyper som kan orsaka en fullständig uppdatering.

Värde Description
CDF_UNAVAILABLE CDF (Ändra dataflöde) är inte aktiverat i vissa bastabeller. Fältet table_information innehåller information om vilken tabell som inte har CDF aktiverat. Använd ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true) för att aktivera CDF för bastabellen. Om källtabellen är en materialiserad vy bör CDF anges till ON som standard.
DELTA_PROTOCOL_CHANGED Uppdatera fullständigt eftersom vissa bastabeller (information i table_information fältet) har ändrats i Delta-protokollet.
DATA_SCHEMA_CHANGED Uppdatera helt eftersom vissa bastabeller (information i table_information fältet) hade en ändring av dataschemat i kolumnerna som används av den materialiserade vydefinitionen. Det är inte relevant om en kolumn som den materialiserade vyn inte använder har ändrats eller lagts till i grundtabellen.
PARTITION_SCHEMA_CHANGED Uppdatera helt eftersom vissa bastabeller (information i table_information-fältet) hade en ändring av partitionsschemat.
INPUT_NOT_IN_DELTA Uppdatera helt eftersom definitionen för den materialiserade vyn omfattar vissa indata som inte är delta.
DATA_FILE_MISSING Uppdatera helt eftersom vissa bastabellfiler redan är raderade på grund av sin kvarhållningsperiod.
PLAN_NOT_DETERMINISTIC Uppdatera helt eftersom vissa operatorer eller uttryck i den materialiserade vydefinitionen inte är deterministiska. Fälten operator_name och expression_name ger information om vilken operator eller vilket uttryck som orsakade problemet.
PLAN_NOT_INCREMENTALIZABLE Uppdatera helt eftersom vissa operatorer eller uttryck i den materialiserade vydefinitionen inte är inkrementella.
SERIALIZATION_VERSION_CHANGED Uppdatera helt eftersom det skedde en betydande ändring i frågans fingeravtryckslogik.
QUERY_FINGERPRINT_CHANGED Uppdatera helt eftersom den materialiserade vydefinitionen har ändrats eller Lakeflow Spark Deklarativa pipelines-versioner orsakade en ändring i frågeutvärderingsplanerna.
CONFIGURATION_CHANGED Uppdatera helt eftersom nyckelkonfigurationer (till exempel spark.sql.ansi.enabled) som kan påverka frågeutvärderingen har ändrats. Fullständig omberäkning krävs för att undvika inkonsekventa tillstånd i den materialiserade vy.
CHANGE_SET_MISSING Uppdatera helt eftersom det är den första beräkningen av den materialiserade vyn. Detta är ett förväntat beteende vid inledande materialiserad vyberäkning.
EXPECTATIONS_NOT_SUPPORTED Fullständig uppdatering eftersom den materialiserade vydefinitionen innehåller förväntningar som inte stöds för inkrementella uppdateringar. Ta bort förväntningar eller hantera dem utanför den materialiserade vydefinitionen om inkrementellt stöd behövs.
TOO_MANY_FILE_ACTIONS Fullständig uppdatering eftersom antalet filåtgärder överskred tröskelvärdet för inkrementell bearbetning. Överväg att minska filändringarna i bastabeller eller öka tröskelvärdena.
INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL Fullständig uppdatering eftersom kostnadsmodellen har fastställt att en fullständig uppdatering är effektivare än inkrementellt underhåll. Granska beteendet för kostnadsmodellen eller komplexiteten i frågeplanen för att tillåta inkrementella uppdateringar.
ROW_TRACKING_NOT_ENABLED Uppdatera helt eftersom radspårning inte är aktiverad i en eller flera bastabeller. Aktivera radspårning med .ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true)
TOO_MANY_PARTITIONS_CHANGED Uppdatera helt eftersom för många partitioner har ändrats i bastabellerna. Försök att begränsa antalet partitionsändringar så att de håller sig inom inkrementella bearbetningsgränser.
MAP_TYPE_NOT_SUPPORTED Fullständig uppdatering eftersom den materialiserade vydefinitionen innehåller en karttyp som inte stöds för inkrementella uppdateringar. Överväg att omstrukturera data för att undvika karttyper i den materialiserade vyn.
TIME_ZONE_CHANGED Uppdatera helt eftersom inställningen för sessionen eller systemets tidszon har ändrats.
DATA_HAS_CHANGED Uppdatera helt eftersom data som är relevanta för den materialiserade vyn har ändrats på ett sätt som förhindrar inkrementella uppdateringar. Utvärdera dataändringarna och strukturen i vydefinitionen för att säkerställa kompatibilitet med inkrementell logik.
PRIOR_TIMESTAMP_MISSING Uppdatera helt eftersom tidsstämpeln för den senaste lyckade körningen saknas. Detta kan inträffa efter metadataförlust eller manuella åtgärder.

MaintenanceType-objekt

En uppräkning av underhållstyper som kan väljas under en planning_information händelse. Om typen inte är MAINTENANCE_TYPE_COMPLETE_RECOMPUTE eller MAINTENANCE_TYPE_NO_OP, är typen en inkrementell uppdatering.

Värde Description
MAINTENANCE_TYPE_COMPLETE_RECOMPUTE Fullständig omberäkning; visas alltid.
MAINTENANCE_TYPE_NO_OP När bastabeller inte ändras.
MAINTENANCE_TYPE_PARTITION_OVERWRITE Uppdatera inkrementellt berörda partitioner när den materialiserade vyn sampartitioneras med en av källtabellerna.
MAINTENANCE_TYPE_ROW_BASED Uppdatera stegvis genom att skapa modulära ändringsuppsättningar för olika åtgärder, till exempel JOIN, FILTERoch UNION ALL, skapa dem för att beräkna komplexa frågor. Används när radspårning för källtabellerna är aktiverat och det finns ett begränsat antal kopplingar för frågan.
MAINTENANCE_TYPE_APPEND_ONLY Uppdatera stegvis genom att endast beräkna nya rader eftersom det inte fanns några upserts eller borttagningar i källtabellerna.
MAINTENANCE_TYPE_GROUP_AGGREGATE Uppdatera stegvis genom att beräkna ändringar för varje aggregeringsvärde. Används när associativa aggregeringar, till exempel count, sum, meanoch stddev, är på den översta nivån i frågan.
MAINTENANCE_TYPE_GENERIC_AGGREGATE Uppdatera stegvis genom att endast beräkna de berörda aggregeringsgrupperna. Används när aggregeringar som median (inte bara associativa) är på frågans översta nivå.
MAINTENANCE_TYPE_WINDOW_FUNCTION Uppdatera frågor stegvis med fönsterfunktioner som PARTITION BY genom att bara omberäkna de ändrade partitionerna. Används när alla fönsterfunktioner har en PARTITION BY eller JOIN -sats och är på den översta nivån i frågan.

Origin-objekt

Där händelsen har sitt ursprung.

Fält Description
cloud Molnleverantören. Möjliga värden är:
  • AWS
  • Blått
  • GCP
region Molnregionen.
org_id Användarens organisations-ID eller arbetsyte-ID. Unikt i ett moln. Användbart för att identifiera arbetsytan eller för att ansluta till andra tabeller, till exempel systemfaktureringstabeller.
pipeline_id ID:t för rörledningen. En unik identifierare för pipelinen. Användbart för att identifiera pipelinen eller för att ansluta till andra tabeller, till exempel systemfaktureringstabeller.
pipeline_type Pipelinetypen som visar var pipelinen skapades. Möjliga värden är:
  • DBSQL: En pipeline som skapats via Databricks SQL.
  • WORKSPACE: En ETL-pipeline som skapats via Lakeflow Spark Deklarativa Pipelines.
  • MANAGED_INGESTION: En Lakeflow Connect-hanterad inmatningspipeline.
  • BRICKSTORE: En pipeline för att uppdatera en onlinetabell för realtidsfunktionsservering.
  • BRICKINDEX: En pipeline för att uppdatera en vektordatabas. Mer information finns i vektorsökning.
pipeline_name Namnet på pipelinen.
cluster_id ID för klustret där en utförande sker. Globalt unikt.
update_id ID för en enda körning av pipelinen. Detta motsvarar körnings-ID.
table_name Namnet på den (Delta)-tabell som skrivs till.
dataset_name Det fullständigt kvalificerade namnet på en datauppsättning.
sink_name Namnet på en senke.
flow_id ID:t för flödet. Den spårar tillståndet för flödet som används i flera uppdateringar. Så länge som är flow_id detsamma uppdateras flödet stegvis. flow_id ändras när den materialiserade vyn genomgår en fullständig uppdatering, när kontrollpunkten återställs, eller när en fullständig omberäkning sker inom den materialiserade vyn.
flow_name Namnet på flödet.
batch_id ID:t för en mikrobatch. Unikt i ett flöde.
request_id ID:t för begäran som orsakade en uppdatering.

PlanNotDeterministicSubType-objekt

En uppräkning av icke-deterministiska fall för en planning_information händelse.

Värde Description
STREAMING_SOURCE Uppdatera helt eftersom den materialiserade vydefinitionen innehåller en strömmande källa, som inte stöds.
USER_DEFINED_FUNCTION Uppdatera helt eftersom den materialiserade vyn innehåller en användardefinierad funktion som inte stöds. Endast deterministiska Python-UDF:er stöds. Andra UDF:er kan förhindra inkrementella uppdateringar.
TIME_FUNCTION Uppdatera helt eftersom den materialiserade vyn innehåller en tidsbaserad funktion som CURRENT_DATE eller CURRENT_TIMESTAMP. Egenskapen expression_name innehåller namnet på den funktion som inte stöds.
NON_DETERMINISTIC_EXPRESSION Uppdatera helt eftersom frågan innehåller ett icke-deterministiskt uttryck som RANDOM(). Egenskapen expression_name anger den icke-deterministiska funktion som förhindrar inkrementellt underhåll.

PlanNotIncrementalizableSubType-objekt

En uppräkning av orsaker till att en uppdateringsplan kanske inte är inkrementell.

Värde Description
OPERATOR_NOT_SUPPORTED Uppdatera helt eftersom frågeplanen innehåller en operator som inte stöds. Egenskapen operator_name innehåller namnet på operatorn som inte stöds.
AGGREGATE_NOT_TOP_NODE Uppdatera helt eftersom en aggregeringsoperator (GROUP BY) inte är på den översta nivån i frågeplanen. Inkrementellt underhåll stöder endast aggregeringar på den översta nivån. Överväg att definiera två materialiserade vyer för att separera aggregeringen.
AGGREGATE_WITH_DISTINCT Uppdatera helt eftersom aggregeringen innehåller en DISTINCT sats som inte stöds för inkrementella uppdateringar.
AGGREGATE_WITH_UNSUPPORTED_EXPRESSION Uppdatera helt eftersom aggregeringen innehåller uttryck som inte stöds. Egenskapen expression_name anger det problematiska uttrycket.
SUBQUERY_EXPRESSION Uppdatera fullständigt eftersom den materialiserade vydefinitionen innehåller ett underfrågasuttryck som inte stöds.
WINDOW_FUNCTION_NOT_TOP_LEVEL Omladda helt och hållet eftersom en fönsterfunktion inte finns på toppnivån i frågeplanen.
WINDOW_FUNCTION_WITHOUT_PARTITION_BY Uppdatera helt eftersom en fönsterfunktion har definierats utan en PARTITION BY sats.

TableInformation-objekt

Representerar information om en tabell som övervägs under en planning_information händelse.

Fält Description
table_name Tabellnamn som används i frågan från Unity Catalog eller Hive-metaarkivet. Kanske inte är tillgängligt vid sökvägsbaserad åtkomst.
table_id Obligatoriskt. Tabell-ID från Delta-loggen.
catalog_table_type Typ av tabell enligt beskrivningen i katalogen.
partition_columns Partitionskolumner i tabellen.
table_change_type Ändra typ i tabellen. En av: TABLE_CHANGE_TYPE_UNKNOWN, TABLE_CHANGE_TYPE_APPEND_ONLY, TABLE_CHANGE_TYPE_GENERAL_CHANGE.
full_size Tabellens fulla storlek i antal byte.
change_size Storleken på de ändrade raderna i ändrade filer. Den beräknas med hjälp av change_file_read_size * num_changed_rows / num_rows_in_changed_files.
num_changed_partitions Antal ändrade partitioner.
is_size_after_pruning Om full_size och change_size representerar data efter statisk filrensning.
is_row_id_enabled Om rad-ID är aktiverat i tabellen.
is_cdf_enabled Om CDF är aktiverat i tabellen.
is_deletion_vector_enabled Om borttagningsvektor är aktiverad i tabellen.
is_change_from_legacy_cdf Oavsett om tabelländringen kommer från en äldre CDF eller en CDF baserad på rad-ID.

TaskSlotMetrics-objekt

Måtten för aktivitetsfacket för ett kluster. Gäller endast för pipelineuppdateringar som körs på klassisk beräkning.

Fält Description
summary_duration_ms Varaktigheten i millisekunder över vilka aggregerade mått (till exempel avg_num_task_slots) beräknas.
num_task_slots Antalet Spark-uppgiftsluckor vid rapporteringsögonblicket.
avg_num_task_slots Det genomsnittliga antalet Spark-uppgiftsplatser över sammanfattningens tidsperiod.
avg_task_slot_utilization Den genomsnittliga användningen av uppgiftsplatser (antalet aktiva uppgifter dividerat med antalet uppgiftsplatser) under sammanfattningsperioden.
num_executors Antalet Spark-exekutorer vid rapporteringstillfället.
avg_num_queued_tasks Den genomsnittliga storleken på aktivitetsköen (antalet totala aktiviteter minus antalet aktiva aktiviteter) över sammanfattningens varaktighet.

Teknikinformation-objekt

Uppdatera metodinformation för en planeringshändelse.

Fält Description
maintenance_type Underhållstyp som är relaterad till den här informationen.
Om typen inte MAINTENANCE_TYPE_COMPLETE_RECOMPUTE är eller MAINTENANCE_TYPE_NO_OPuppdateras flödet stegvis.
Mer information finns i MaintenanceType-objektet.
is_chosen Sant för den teknik som valdes för uppdateringen.
is_applicable Om underhållstypen är tillämplig.
incrementalization_issues Problem med inkrementell uppdatering som kan orsaka att en uppdatering görs om helt. Mer information finns i IncrementalizationIssue-objekt.
change_set_information Information om den slutgiltiga ändringsuppsättningen. Värden är något av:
  • CHANGE_SET_TYPE_APPEND_ONLY
  • CHANGE_SET_TYPE_GENERAL_ROW_CHANGE