Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Händelseloggen för pipelinen innehåller all information som rör en pipeline, inklusive granskningsloggar, datakvalitetskontroller, pipelineförlopp och data härkomst.
Följande tabeller beskriver händelseloggschemat. Vissa av dessa fält innehåller JSON-data som kräver parsning för att utföra vissa frågor, till exempel fältet details. Azure Databricks stöder :-operatorn för att parsa JSON-fält. Se : (kolon) operatör.
Anmärkning
Vissa fält i händelseloggen är för intern användning av Azure Databricks. I följande dokumentation beskrivs de fält som är avsedda för kundförbrukning.
Mer information om hur du använder pipelinehändelseloggen finns i Händelselogg för pipeline.
PipelineEvent-objekt
Representerar en enskild pipelinehändelse i händelseloggen.
| Fält | Description |
|---|---|
id |
En unik identifierare för händelseloggposten. |
sequence |
En JSON-sträng som innehåller metadata för att identifiera och beställa händelser. |
origin |
En JSON-sträng som innehåller metadata för händelsens ursprung, till exempel molnleverantören, molnleverantörens region, användare och pipelineinformation. Se Origin-objekt. |
timestamp |
Den tid då händelsen spelades in, i UTC. |
message |
Ett läsbart meddelande som beskriver händelsen. |
level |
Varningsnivån. Möjliga värden är:
|
maturity_level |
Händelseschemats stabilitet. Möjliga värden är:
Vi rekommenderar inte att du skapar övervakning eller aviseringar baserat på EVOLVING eller DEPRECATED fält. |
error |
Om ett fel har uppstått finns information som beskriver felet. |
details |
En JSON-sträng som innehåller strukturerad information om händelsen. Det här är det primära fältet som används för att analysera händelser. JSON-strängformatet beror på event_type. Mer information finns i Informationsobjektet . |
event_type |
Händelsetyp En lista över händelsetyper och vilken informationsobjekttyp de skapar finns i Informationsobjektet. |
Detaljerobjektet
Varje händelse har olika details egenskaper i JSON-objektet, baserat på event_type händelsens. I den här tabellen visas event_type och tillhörande details. Egenskaperna details beskrivs i avsnittet Informationstyper .
Informationstyp efter event_type |
Description |
|---|---|
create_update |
Samlar in den fullständiga konfiguration som används för att starta en pipelineuppdatering. Innehåller alla konfigurationsuppsättningar från Databricks. Mer information finns i Information om create_update. |
user_action |
Innehåller information om alla användaråtgärder i pipelinen (inklusive att skapa en pipeline samt starta eller avbryta en uppdatering). Mer information finns i Information om user_action händelse. |
flow_progress |
Beskriver livscykeln för ett flöde från start, körning till slutförd eller misslyckad. Mer information finns i Information om flow_progress händelse. |
update_progress |
Beskriver livscykeln för en pipelineuppdatering från start, körning, slutförande eller misslyckad. Mer information finns i Information om update_progress händelse. |
flow_definition |
Definierar schemat och frågeplanen för eventuella transformeringar som inträffar i ett visst flöde. Kan ses som kanterna på Dataflow DAG. Den kan användas för att beräkna linjen for varje flöde samt för att se den visade frågeplanen. Mer information finns i Information om flow_definition händelse. |
dataset_definition |
Definierar en datauppsättning, som antingen är källan eller målet för ett visst flöde. Mer information finns i Information om dataset_definition händelse. |
sink_definition |
Definierar en given mottagare. Mer information finns i Information om sink_definition händelse. |
deprecation |
Visar en lista över funktioner som snart eller för närvarande är inaktuella som den här pipelinen använder. Exempel på värden finns i Details enum för avvecklingshändelse. |
cluster_resources |
Innehåller information om klusterresurser för pipelines som körs på klassisk databehandling. Dessa mått fylls bara i för klassiska beräkningspipelines. Mer information finns i Information om cluster_resources händelse. |
autoscale |
Innehåller information om automatisk skalning för pipelines som körs på klassisk beräkning. Dessa mått fylls bara i för klassiska beräkningspipelines. Mer information finns i Information om autoskalningshändelse. |
planning_information |
Representerar planeringsinformation som rör materialiserad vy inkrementell jämfört med fullständig uppdatering. Kan användas för att få mer information om varför en materialiserad vy beräknas om helt. Mer information finns under Detaljer för planning_information-händelse. |
hook_progress |
En händelse som anger den aktuella statusen för en användarkrok under pipelinekörningen. Används för att övervaka status för händelsekrokar, till exempel för att skicka till externa observationsverktyg. Mer information finns i Information om hook_progress händelse. |
operation_progress |
Innehåller information om förloppet för en åtgärd. Mer information finns i Information om operation_progress händelse. |
stream_progress |
Innehåller information om utvecklingen av en pipeline. Mer information finns i Information om stream_progress händelse. |
Detaljtyper
Följande objekt representerar details en annan händelsetyp i PipelineEvent objektet.
Information om create_update
Information om create_update händelsen.
| Fält | Description |
|---|---|
dbr_version |
Versionen av Databricks Runtime. |
run_as |
Det användar-ID som uppdateringen ska köras för. Detta är vanligtvis antingen ägaren av pipelinen eller ett huvudnamn för tjänsten. |
cause |
Orsaken till uppdateringen. Vanligtvis antingen JOB_TASK om de körs från ett jobb eller USER_ACTION när de körs interaktivt av en användare. |
Information om user_action händelse
Information om user_action händelsen. Innehåller följande fält:
| Fält | Description |
|---|---|
user_name |
Namnet på den användare som utlöste en pipelineuppdatering. |
user_id |
ID för användaren som utlöste en pipelineuppdatering. Detta är inte alltid detsamma som användaren run_as , vilket kan vara tjänstens huvudnamn eller annan användare. |
action |
Åtgärden som användaren vidtog, inklusive START och CREATE. |
Information om flow_progress händelse
Information om en flow_progress händelse.
| Fält | Description |
|---|---|
status |
Flödets nya status. Kan vara något av:
|
metrics |
Metrik av flödet. Mer information finns i FlowMetrics. |
data_quality |
Datakvalitetsmått om flödet och tillhörande förväntningar. Mer information finns i DataQualityMetrics. |
Information om update_progress händelse
Information om en update_progress händelse.
| Fält | Description |
|---|---|
state |
Den nya statusen för uppdateringen. Kan vara något av:
Användbart för att beräkna varaktigheten för olika steg i en pipelineuppdatering från total varaktighet till tid som lagts på att vänta på resurser, till exempel. |
cancellation_cause |
Anledningen till att en uppdatering angav tillståndet CANCELED . Innehåller orsaker som USER_ACTION eller WORKFLOW_CANCELLATION (arbetsflödet som utlöste uppdateringen avbröts). |
Information om flow_definition händelse
Information om en flow_definition händelse.
| Fält | Description |
|---|---|
input_datasets |
Indata som läses i det här flödet. |
output_dataset |
Utdatauppsättningen som detta flöde skriver till. |
output_sink |
Utdatamottagaren som detta flöde skriver till. |
explain_text |
Den förklarade frågeplanen. |
schema_json |
Spark SQL JSON-schemasträng. |
schema |
Schema för det här flödet. |
flow_type |
Typ av flöde. Kan vara något av:
|
comment |
Användarkommentare eller beskrivning om datauppsättningen. |
spark_conf |
Spark-konfigurationer har angetts för det här flödet. |
language |
Det språk som används för att skapa det här flödet. Kan vara SCALA, PYTHONeller SQL. |
once |
Om det här flödet är deklarerat att endast köras en gång. |
Information om dataset_definition händelse
Information om en dataset_definition händelse. Innehåller följande fält:
| Fält | Description |
|---|---|
dataset_type |
Skiljer mellan materialiserade vyer och strömmande tabeller. |
num_flows |
Antalet flöden som skriver till datamängden. |
expectations |
De förväntningar som är associerade med datamängden. |
Information om sink_definition händelse
Information om en sink_definition händelse.
| Fält | Description |
|---|---|
format |
Formatet på sinken. |
options |
Nyckel/värde-alternativen som är associerade med datasänkan. |
Information om utfasningshändelse
Händelsen deprecation har ett message fält. Möjliga värden för message inkluderar följande. Det här är en partiell lista som växer med tiden.
| Fält | Description |
|---|---|
TABLE_MANAGED_BY_MULTIPLE_PIPELINES |
En tabell hanteras av flera pipelines. |
INVALID_CLUSTER_LABELS |
Använda klusteretiketter som inte stöds. |
PINNED_DBR_VERSION |
Använda dbr_version i stället för channel i pipelineinställningar. |
PREVIOUS_CHANNEL_USED |
Använd versionskanalen PREVIOUS, som kan försvinna i en framtida uppdatering. |
LONG_DATASET_NAME |
Använda ett datauppsättningsnamn som är längre än den längd som stöds. |
LONG_SINK_NAME |
Att använda ett mottagarnamn som är längre än vad som stöds av systemet. |
LONG_FLOW_NAME |
Använd ett flödesnamn som är längre än den längd som stöds. |
ENHANCED_AUTOSCALING_POLICY_COMPLIANCE |
Klusterprincipen uppfylls endast när Utökad autoskalning använder fast klusterstorlek. |
DATA_SAMPLE_CONFIGURATION_KEY |
Konfigurationsnyckeln för att konfigurera datasampling är inaktuell. |
INCOMPATIBLE_CLUSTER_SETTINGS |
Aktuella klusterinställningar eller klusterpolicyer är inte längre kompatibla med Lakeflow Spark Declarative Pipelines. |
STREAMING_READER_OPTIONS_DROPPED |
Använda alternativ för direktuppspelningsläsare som tas bort. |
DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG |
Det är inte tillåtet att ange statiska Spark-konfigurationer via pipelinekonfiguration för serverlösa pipelines. |
INVALID_SERVERLESS_PIPELINE_CONFIG |
Serverlös kund tillhandahåller ogiltig pipelinekonfiguration. |
UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE |
Ange oanvända explicita tabellsökvägar i UC-hanterade tabeller. |
FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE |
Den angivna foreachBatch-funktionen kan inte serialiseras. |
DROP_PARTITION_COLS_NO_PARTITIONING |
Om du tar bort attributet partition_cols resulterar det i ingen partitionering. |
PYTHON_CREATE_TABLE |
Använda @dlt.create\_table i stället för @dp.table eller @dp.materialized\_view. |
PYTHON_CREATE_VIEW |
Använda @dlt.create\_view i stället för @dp.temporary\_view. |
PYTHON_CREATE_STREAMING_LIVE_TABLE |
Använda create_streaming_live_table i stället för create_streaming_table. |
PYTHON_CREATE_TARGET_TABLE |
Använda create_target_table i stället för create_streaming_table. |
FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE |
Uppsättningen tabeller som hanteras av pipelinen har en cykel i uppsättningen med begränsningar för sekundärnyckel. |
PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE |
En delvis kvalificerad tabellreferens som har olika betydelser i standardpubliceringsläge och äldre publiceringsläge. |
Information om cluster_resources händelse
Information om en cluster_resources händelse. Gäller endast för pipelines som körs på klassiska datorresurser.
| Fält | Description |
|---|---|
task_slot_metrics |
Mätvärden för uppgiftsplatser i klustret. Mer information finns i TaskSlotMetrics-objektet |
autoscale_info |
Tillståndet av autoskalers Mer information finns i AutoscaleInfo-objekt |
Information om autoskalningshändelse
Information om en autoscale händelse. Autoskalningshändelser gäller endast när pipelinen använder klassisk beräkning.
| Fält | Description |
|---|---|
status |
Status för den här händelsen. Kan vara något av:
|
optimal_num_executors |
Det optimala antalet exekutorer som föreslås av algoritmen innan tillämpning av min_workers och max_workers begränsningar. |
requested_num_executors |
Antalet utförare efter att det optimala antalet utförare som föreslås av algoritmen har beskärts till min_workers och max_workers gränserna. |
Information om planning_information händelse
Information om en planning_information händelse. Användbart för att se information om den valda uppdateringstypen för ett visst flöde under en uppdatering. Kan användas för att felsöka varför en uppdatering uppdateras helt i stället för att uppdateras stegvis. Mer information om inkrementella uppdateringar finns i Inkrementell uppdatering för materialiserade vyer
| Fält | Description |
|---|---|
technique_information |
Uppdateringsrelaterad information. Den innehåller både information om vilken uppdateringsmetod som valdes och de möjliga uppdateringsmetoder som övervägdes. Användbart för felsökning av varför en materialiserad vy inte kunde inkrementelliseras. Mer information finns i TechniqueInformation. |
source_table_information |
Information om källtabell Kan vara användbart för felsökning av varför en materialiserad vy inte kunde inkrementelliseras. Mer information finns i TableInformation-objektet. |
target_table_information |
Måltabellinformation. Mer information finns i TableInformation-objektet. |
Information om hook_progress händelse
Information om en hook_progress händelse. Innehåller följande fält:
| Fält | Description |
|---|---|
name |
Namnet på användarhooken. |
status |
Status för användarhaken. |
Information om operation_progress händelse
Information om en operation_progress händelse. Innehåller följande fält:
| Fält | Description |
|---|---|
type |
Typ av operation som spåras. En av:
|
status |
Status för åtgärden. En av:
|
duration_ms |
Den totala förflutna tiden för åtgärden i millisekunder. Ingår endast i sluthändelsen (där status är COMPLETED, CANCELEDeller FAILED). |
Information om stream_progress händelse
Information om en stream_progress händelse. Innehåller följande fält:
| Fält | Description |
|---|---|
stream_progress |
Detaljer om pipeline-flödet. Liknar måtten StreamingQueryListener för strukturerad direktuppspelning.Skillnaderna beskrivs i följande stycken. Fullständig dokumentation om StreamingQueryListener mått finns i StreamingQueryListener-objektmått. |
Skillnader mellan stream_progress och StreamingQueryListener objektmått:
- Följande mått finns i
StreamingQueryListener, men inte istream_progress:numInputRows,inputRowsPerSecondochprocessedRowsPerSecond. - För Kafka- och Kineses-strömmar kan fälten
startOffset,endOffsetochlatestOffsetvara för stora och trunkerade. För varje av dessa fält läggs ett ytterligare fält,...Truncated,startOffsetTruncated,endOffsetTruncatedochlatestOffsetTruncated, till med ett booleskt värde för om data är trunkerad.
Andra objekt
Följande objekt representerar ytterligare data eller uppräkningar i händelseobjekten.
AutoscaleInfo-objekt
Metrik för automatisk skalning för en kluster. Gäller endast för pipelines som körs på klassiska datorresurser.
| Fält | Description |
|---|---|
state |
Autoskalningsstatus. Kan vara något av:
|
optimal_num_executors |
Det optimala antalet utförare. Det här är den optimala storlek som föreslås av algoritmen innan den trunkeras av det användardefinierade minsta/högsta antalet exekutorer. |
latest_requested_num_executors |
Antalet utförare som begärts från klusterhanteraren av tillståndshanteraren i den senaste begäran. Det här är antalet utförare som tillståndshanteraren försöker skala till och uppdateras när tillståndshanteraren försöker avsluta skalningstillståndet i händelse av tidsgränser. Det här fältet fylls inte i om det inte finns någon väntande begäran. |
request_pending_seconds |
Hur lång tid en skalningsbegäran har varit pågående. Detta fylls inte i om det inte finns någon väntande begäran. |
CostModelRejectionSubType-objekt
En uppräkning av orsaker till att inkrementellisering avvisas, baserat på kostnaden för fullständig uppdatering jämfört med inkrementell uppdatering i en planning_information händelse.
| Värde | Description |
|---|---|
NUM_JOINS_THRESHOLD_EXCEEDED |
Uppdatera helt eftersom frågan innehåller för många kopplingar. |
CHANGESET_SIZE_THRESHOLD_EXCEEDED |
Uppdatera helt eftersom för många rader i bastabellerna har ändrats. |
TABLE_SIZE_THRESHOLD_EXCEEDED |
Uppdatera helt eftersom bastabellens storlek överskred tröskelvärdet. |
EXCESSIVE_OPERATOR_NESTING |
Uppdatera fullständigt eftersom frågedefinitionen är komplex och har många nivåer av operatorkapsling. |
COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED |
Återställ helt av någon annan anledning. |
DataQualityMetrics-objekt
Mått om hur förväntningarna uppfylls i flödet. Används i händelsedetaljer flow_progress.
| Fält | Description |
|---|---|
dropped_records |
Antalet poster som togs bort eftersom de inte uppfyllde ett eller flera krav. |
expectations |
Mätvärden för förväntningar som lagts till i datamängder inom flödets frågeplan. När det finns flera förväntningar kan detta användas för att spåra vilka förväntningar som uppfylldes eller misslyckades. Mer information finns i ExpectationMetrics-objektet. |
ExpectationMetrics-objekt
Mätvärden om förväntningar, för en specifik förväntning.
| Fält | Description |
|---|---|
name |
Namnet på förväntningen. |
dataset |
Namnet på datauppsättningen som förväntan lades till i. |
passed_records |
Antalet poster som klarar förväntningarna. |
failed_records |
Antalet poster som misslyckas med att uppfylla förväntningen. Spårar om förväntningarna har uppfyllts, men beskriver inte vad som händer med posterna (varningar, fel eller borttagna poster). |
FlowMetrics-objekt
Mätvärden för flödet, inklusive både totalt för flödet och uppdelat efter specifika källor. Används i händelsedetaljer flow_progress.
Varje strömmande källa stöder endast specifika flödesmått. I följande tabell visas de mått som är tillgängliga för strömmande källor som stöds:
| källa | kvarvarande byte | posterna i kvarvarande uppgifter | kösekunder | kvarvarande filer |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| Automatisk Laddare | ✓ | ✓ | ||
| Google Pub/Sub | ✓ | ✓ |
| Fält | Description |
|---|---|
num_output_rows |
Antal rader som skrivits ut av en uppdatering av det här flödet. |
backlog_bytes |
Total kvarvarande uppgifter som byte för alla indatakällor i flödet. |
backlog_records |
Totalt antal kvarvarande poster för alla indatakällor i flödet. |
backlog_files |
Totalt antal kvarvarande filer i alla indatakällor i flödet. |
backlog_seconds |
Maximalt antal kvarvarande sekunder för alla indatakällor i flödet. |
executor_time_ms |
Summan av alla exekveringstider för uppgifter i detta flöde i millisekunder under rapportperioden. |
executor_cpu_time_ms |
Summan av alla CPU-tider för körning av uppgifter i millisekunder i det här flödet under rapporteringsperioden. |
num_upserted_rows |
Antal utdatarader som har utökats till datauppsättningen genom en uppdatering av det här flödet. |
num_deleted_rows |
Antal befintliga utdatarader som tagits bort från datauppsättningen genom en uppdatering av det här flödet. |
num_output_bytes |
Antal utdatabyte som skrivits av en uppdatering av det här flödet. |
source_metrics |
Mått för varje indatakälla i flödet. Användbart för övervakning av inmatningsförlopp från källor utanför Lakeflow Sparks deklarativa pipelines (exempelvis Apache Kafka, Pulsar eller Auto Loader). Innehåller fälten:
|
IncrementalizationIssue-objekt
Representerar problem med inkrementalisering som kan orsaka en fullständig omladdning när du planerar en uppdatering.
| Fält | Description |
|---|---|
issue_type |
En problemtyp som kan förhindra att den materialiserade vyn inkrementelliseras. Mer information finns i Problemtyp. |
prevent_incrementalization |
Om det här problemet förhindrade inkrementelliseringen. |
table_information |
Tabellinformation som är associerad med problem som CDF_UNAVAILABLE, INPUT_NOT_IN_DELTA, DATA_FILE_MISSING. |
operator_name |
Planrelaterad information. Ange problem för vilka problemtypen antingen är PLAN_NOT_DETERMINISTIC eller PLAN_NOT_INCREMENTALIZABLE, till den operator eller det uttryck som orsakar icke-determinism eller icke-inkrementalitet. |
expression_name |
Namn på uttrycket. |
join_type |
Extra information när operatorn är en join. Till exempel JOIN_TYPE_LEFT_OUTER eller JOIN_TYPE_INNER. |
plan_not_incrementalizable_sub_type |
Detaljerad kategori när problemtypen är PLAN_NOT_INCREMENTALIZABLE. Mer information finns i PlanNotIncrementalizableSubType-objektet. |
plan_not_deterministic_sub_type |
Detaljerad kategori när problemtypen är PLAN_NOT_DETERMINISTIC. Mer information finns i PlanNotDeterministicSubType-objektet. |
fingerprint_diff_before |
Skillnaden från fingeravtrycket tidigare. |
fingerprint_diff_current |
Differensen från det aktuella fingeravtrycket. |
cost_model_rejection_subtype |
Detaljerad kategori när problemtypen är INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL. Mer information finns i Objektet CostModelRejectionSubType. |
IssueType-objekt
En uppräkning av problemtyper som kan orsaka en fullständig uppdatering.
| Värde | Description |
|---|---|
CDF_UNAVAILABLE |
CDF (Ändra dataflöde) är inte aktiverat i vissa bastabeller. Fältet table_information innehåller information om vilken tabell som inte har CDF aktiverat. Använd ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true) för att aktivera CDF för bastabellen. Om källtabellen är en materialiserad vy bör CDF anges till ON som standard. |
DELTA_PROTOCOL_CHANGED |
Uppdatera fullständigt eftersom vissa bastabeller (information i table_information fältet) har ändrats i Delta-protokollet. |
DATA_SCHEMA_CHANGED |
Uppdatera helt eftersom vissa bastabeller (information i table_information fältet) hade en ändring av dataschemat i kolumnerna som används av den materialiserade vydefinitionen. Det är inte relevant om en kolumn som den materialiserade vyn inte använder har ändrats eller lagts till i grundtabellen. |
PARTITION_SCHEMA_CHANGED |
Uppdatera helt eftersom vissa bastabeller (information i table_information-fältet) hade en ändring av partitionsschemat. |
INPUT_NOT_IN_DELTA |
Uppdatera helt eftersom definitionen för den materialiserade vyn omfattar vissa indata som inte är delta. |
DATA_FILE_MISSING |
Uppdatera helt eftersom vissa bastabellfiler redan är raderade på grund av sin kvarhållningsperiod. |
PLAN_NOT_DETERMINISTIC |
Uppdatera helt eftersom vissa operatorer eller uttryck i den materialiserade vydefinitionen inte är deterministiska. Fälten operator_name och expression_name ger information om vilken operator eller vilket uttryck som orsakade problemet. |
PLAN_NOT_INCREMENTALIZABLE |
Uppdatera helt eftersom vissa operatorer eller uttryck i den materialiserade vydefinitionen inte är inkrementella. |
SERIALIZATION_VERSION_CHANGED |
Uppdatera helt eftersom det skedde en betydande ändring i frågans fingeravtryckslogik. |
QUERY_FINGERPRINT_CHANGED |
Uppdatera helt eftersom den materialiserade vydefinitionen har ändrats eller Lakeflow Spark Deklarativa pipelines-versioner orsakade en ändring i frågeutvärderingsplanerna. |
CONFIGURATION_CHANGED |
Uppdatera helt eftersom nyckelkonfigurationer (till exempel spark.sql.ansi.enabled) som kan påverka frågeutvärderingen har ändrats. Fullständig omberäkning krävs för att undvika inkonsekventa tillstånd i den materialiserade vy. |
CHANGE_SET_MISSING |
Uppdatera helt eftersom det är den första beräkningen av den materialiserade vyn. Detta är ett förväntat beteende vid inledande materialiserad vyberäkning. |
EXPECTATIONS_NOT_SUPPORTED |
Fullständig uppdatering eftersom den materialiserade vydefinitionen innehåller förväntningar som inte stöds för inkrementella uppdateringar. Ta bort förväntningar eller hantera dem utanför den materialiserade vydefinitionen om inkrementellt stöd behövs. |
TOO_MANY_FILE_ACTIONS |
Fullständig uppdatering eftersom antalet filåtgärder överskred tröskelvärdet för inkrementell bearbetning. Överväg att minska filändringarna i bastabeller eller öka tröskelvärdena. |
INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL |
Fullständig uppdatering eftersom kostnadsmodellen har fastställt att en fullständig uppdatering är effektivare än inkrementellt underhåll. Granska beteendet för kostnadsmodellen eller komplexiteten i frågeplanen för att tillåta inkrementella uppdateringar. |
ROW_TRACKING_NOT_ENABLED |
Uppdatera helt eftersom radspårning inte är aktiverad i en eller flera bastabeller. Aktivera radspårning med .ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true) |
TOO_MANY_PARTITIONS_CHANGED |
Uppdatera helt eftersom för många partitioner har ändrats i bastabellerna. Försök att begränsa antalet partitionsändringar så att de håller sig inom inkrementella bearbetningsgränser. |
MAP_TYPE_NOT_SUPPORTED |
Fullständig uppdatering eftersom den materialiserade vydefinitionen innehåller en karttyp som inte stöds för inkrementella uppdateringar. Överväg att omstrukturera data för att undvika karttyper i den materialiserade vyn. |
TIME_ZONE_CHANGED |
Uppdatera helt eftersom inställningen för sessionen eller systemets tidszon har ändrats. |
DATA_HAS_CHANGED |
Uppdatera helt eftersom data som är relevanta för den materialiserade vyn har ändrats på ett sätt som förhindrar inkrementella uppdateringar. Utvärdera dataändringarna och strukturen i vydefinitionen för att säkerställa kompatibilitet med inkrementell logik. |
PRIOR_TIMESTAMP_MISSING |
Uppdatera helt eftersom tidsstämpeln för den senaste lyckade körningen saknas. Detta kan inträffa efter metadataförlust eller manuella åtgärder. |
MaintenanceType-objekt
En uppräkning av underhållstyper som kan väljas under en planning_information händelse. Om typen inte är MAINTENANCE_TYPE_COMPLETE_RECOMPUTE eller MAINTENANCE_TYPE_NO_OP, är typen en inkrementell uppdatering.
| Värde | Description |
|---|---|
MAINTENANCE_TYPE_COMPLETE_RECOMPUTE |
Fullständig omberäkning; visas alltid. |
MAINTENANCE_TYPE_NO_OP |
När bastabeller inte ändras. |
MAINTENANCE_TYPE_PARTITION_OVERWRITE |
Uppdatera inkrementellt berörda partitioner när den materialiserade vyn sampartitioneras med en av källtabellerna. |
MAINTENANCE_TYPE_ROW_BASED |
Uppdatera stegvis genom att skapa modulära ändringsuppsättningar för olika åtgärder, till exempel JOIN, FILTERoch UNION ALL, skapa dem för att beräkna komplexa frågor. Används när radspårning för källtabellerna är aktiverat och det finns ett begränsat antal kopplingar för frågan. |
MAINTENANCE_TYPE_APPEND_ONLY |
Uppdatera stegvis genom att endast beräkna nya rader eftersom det inte fanns några upserts eller borttagningar i källtabellerna. |
MAINTENANCE_TYPE_GROUP_AGGREGATE |
Uppdatera stegvis genom att beräkna ändringar för varje aggregeringsvärde. Används när associativa aggregeringar, till exempel count, sum, meanoch stddev, är på den översta nivån i frågan. |
MAINTENANCE_TYPE_GENERIC_AGGREGATE |
Uppdatera stegvis genom att endast beräkna de berörda aggregeringsgrupperna. Används när aggregeringar som median (inte bara associativa) är på frågans översta nivå. |
MAINTENANCE_TYPE_WINDOW_FUNCTION |
Uppdatera frågor stegvis med fönsterfunktioner som PARTITION BY genom att bara omberäkna de ändrade partitionerna. Används när alla fönsterfunktioner har en PARTITION BY eller JOIN -sats och är på den översta nivån i frågan. |
Origin-objekt
Där händelsen har sitt ursprung.
| Fält | Description |
|---|---|
cloud |
Molnleverantören. Möjliga värden är:
|
region |
Molnregionen. |
org_id |
Användarens organisations-ID eller arbetsyte-ID. Unikt i ett moln. Användbart för att identifiera arbetsytan eller för att ansluta till andra tabeller, till exempel systemfaktureringstabeller. |
pipeline_id |
ID:t för rörledningen. En unik identifierare för pipelinen. Användbart för att identifiera pipelinen eller för att ansluta till andra tabeller, till exempel systemfaktureringstabeller. |
pipeline_type |
Pipelinetypen som visar var pipelinen skapades. Möjliga värden är:
|
pipeline_name |
Namnet på pipelinen. |
cluster_id |
ID för klustret där en utförande sker. Globalt unikt. |
update_id |
ID för en enda körning av pipelinen. Detta motsvarar körnings-ID. |
table_name |
Namnet på den (Delta)-tabell som skrivs till. |
dataset_name |
Det fullständigt kvalificerade namnet på en datauppsättning. |
sink_name |
Namnet på en senke. |
flow_id |
ID:t för flödet. Den spårar tillståndet för flödet som används i flera uppdateringar. Så länge som är flow_id detsamma uppdateras flödet stegvis.
flow_id ändras när den materialiserade vyn genomgår en fullständig uppdatering, när kontrollpunkten återställs, eller när en fullständig omberäkning sker inom den materialiserade vyn. |
flow_name |
Namnet på flödet. |
batch_id |
ID:t för en mikrobatch. Unikt i ett flöde. |
request_id |
ID:t för begäran som orsakade en uppdatering. |
PlanNotDeterministicSubType-objekt
En uppräkning av icke-deterministiska fall för en planning_information händelse.
| Värde | Description |
|---|---|
STREAMING_SOURCE |
Uppdatera helt eftersom den materialiserade vydefinitionen innehåller en strömmande källa, som inte stöds. |
USER_DEFINED_FUNCTION |
Uppdatera helt eftersom den materialiserade vyn innehåller en användardefinierad funktion som inte stöds. Endast deterministiska Python-UDF:er stöds. Andra UDF:er kan förhindra inkrementella uppdateringar. |
TIME_FUNCTION |
Uppdatera helt eftersom den materialiserade vyn innehåller en tidsbaserad funktion som CURRENT_DATE eller CURRENT_TIMESTAMP. Egenskapen expression_name innehåller namnet på den funktion som inte stöds. |
NON_DETERMINISTIC_EXPRESSION |
Uppdatera helt eftersom frågan innehåller ett icke-deterministiskt uttryck som RANDOM(). Egenskapen expression_name anger den icke-deterministiska funktion som förhindrar inkrementellt underhåll. |
PlanNotIncrementalizableSubType-objekt
En uppräkning av orsaker till att en uppdateringsplan kanske inte är inkrementell.
| Värde | Description |
|---|---|
OPERATOR_NOT_SUPPORTED |
Uppdatera helt eftersom frågeplanen innehåller en operator som inte stöds. Egenskapen operator_name innehåller namnet på operatorn som inte stöds. |
AGGREGATE_NOT_TOP_NODE |
Uppdatera helt eftersom en aggregeringsoperator (GROUP BY) inte är på den översta nivån i frågeplanen. Inkrementellt underhåll stöder endast aggregeringar på den översta nivån. Överväg att definiera två materialiserade vyer för att separera aggregeringen. |
AGGREGATE_WITH_DISTINCT |
Uppdatera helt eftersom aggregeringen innehåller en DISTINCT sats som inte stöds för inkrementella uppdateringar. |
AGGREGATE_WITH_UNSUPPORTED_EXPRESSION |
Uppdatera helt eftersom aggregeringen innehåller uttryck som inte stöds. Egenskapen expression_name anger det problematiska uttrycket. |
SUBQUERY_EXPRESSION |
Uppdatera fullständigt eftersom den materialiserade vydefinitionen innehåller ett underfrågasuttryck som inte stöds. |
WINDOW_FUNCTION_NOT_TOP_LEVEL |
Omladda helt och hållet eftersom en fönsterfunktion inte finns på toppnivån i frågeplanen. |
WINDOW_FUNCTION_WITHOUT_PARTITION_BY |
Uppdatera helt eftersom en fönsterfunktion har definierats utan en PARTITION BY sats. |
TableInformation-objekt
Representerar information om en tabell som övervägs under en planning_information händelse.
| Fält | Description |
|---|---|
table_name |
Tabellnamn som används i frågan från Unity Catalog eller Hive-metaarkivet. Kanske inte är tillgängligt vid sökvägsbaserad åtkomst. |
table_id |
Obligatoriskt. Tabell-ID från Delta-loggen. |
catalog_table_type |
Typ av tabell enligt beskrivningen i katalogen. |
partition_columns |
Partitionskolumner i tabellen. |
table_change_type |
Ändra typ i tabellen. En av: TABLE_CHANGE_TYPE_UNKNOWN, TABLE_CHANGE_TYPE_APPEND_ONLY, TABLE_CHANGE_TYPE_GENERAL_CHANGE. |
full_size |
Tabellens fulla storlek i antal byte. |
change_size |
Storleken på de ändrade raderna i ändrade filer. Den beräknas med hjälp av change_file_read_size * num_changed_rows / num_rows_in_changed_files. |
num_changed_partitions |
Antal ändrade partitioner. |
is_size_after_pruning |
Om full_size och change_size representerar data efter statisk filrensning. |
is_row_id_enabled |
Om rad-ID är aktiverat i tabellen. |
is_cdf_enabled |
Om CDF är aktiverat i tabellen. |
is_deletion_vector_enabled |
Om borttagningsvektor är aktiverad i tabellen. |
is_change_from_legacy_cdf |
Oavsett om tabelländringen kommer från en äldre CDF eller en CDF baserad på rad-ID. |
TaskSlotMetrics-objekt
Måtten för aktivitetsfacket för ett kluster. Gäller endast för pipelineuppdateringar som körs på klassisk beräkning.
| Fält | Description |
|---|---|
summary_duration_ms |
Varaktigheten i millisekunder över vilka aggregerade mått (till exempel avg_num_task_slots) beräknas. |
num_task_slots |
Antalet Spark-uppgiftsluckor vid rapporteringsögonblicket. |
avg_num_task_slots |
Det genomsnittliga antalet Spark-uppgiftsplatser över sammanfattningens tidsperiod. |
avg_task_slot_utilization |
Den genomsnittliga användningen av uppgiftsplatser (antalet aktiva uppgifter dividerat med antalet uppgiftsplatser) under sammanfattningsperioden. |
num_executors |
Antalet Spark-exekutorer vid rapporteringstillfället. |
avg_num_queued_tasks |
Den genomsnittliga storleken på aktivitetsköen (antalet totala aktiviteter minus antalet aktiva aktiviteter) över sammanfattningens varaktighet. |
Teknikinformation-objekt
Uppdatera metodinformation för en planeringshändelse.
| Fält | Description |
|---|---|
maintenance_type |
Underhållstyp som är relaterad till den här informationen. Om typen inte MAINTENANCE_TYPE_COMPLETE_RECOMPUTE är eller MAINTENANCE_TYPE_NO_OPuppdateras flödet stegvis.Mer information finns i MaintenanceType-objektet. |
is_chosen |
Sant för den teknik som valdes för uppdateringen. |
is_applicable |
Om underhållstypen är tillämplig. |
incrementalization_issues |
Problem med inkrementell uppdatering som kan orsaka att en uppdatering görs om helt. Mer information finns i IncrementalizationIssue-objekt. |
change_set_information |
Information om den slutgiltiga ändringsuppsättningen. Värden är något av:
|