Schema del registro eventi della pipeline

Il log eventi della pipeline contiene tutte le informazioni correlate a una pipeline, inclusi i log di controllo, i controlli di qualità dei dati, lo stato della pipeline e la derivazione dei dati.

Le tabelle seguenti descrivono lo schema del registro eventi. Alcuni di questi campi contengono dati JSON che richiedono l'analisi per eseguire alcune query, ad esempio il campo details. Azure Databricks supporta l'operatore : per analizzare i campi JSON. Vedere l'operatore : (segno due punti).

Annotazioni

Alcuni campi nel registro eventi sono destinati all'uso interno di Azure Databricks. La documentazione seguente descrive i campi destinati all'utilizzo dei clienti.

Per informazioni dettagliate sull'uso del registro eventi della pipeline, vedere Registro eventi della pipeline.

L'oggetto PipelineEvent

Rappresenta un singolo evento della pipeline nel registro eventi.

Campo	Description
`id`	Identificatore univoco per il record del registro eventi.
`sequence`	Stringa JSON contenente i metadati per identificare e ordinare gli eventi.
`origin`	Stringa JSON contenente i metadati per l'origine dell'evento, ad esempio il provider di servizi cloud, l'area del provider di servizi cloud, l'utente e le informazioni sulla pipeline. Consulta Oggetto Origin.
`timestamp`	Ora in cui l'evento è stato registrato, in formato UTC.
`message`	Messaggio leggibile che descrive l'evento.
`level`	Livello di avviso. I valori possibili sono: `INFO`: eventi informativi `WARN`: problemi imprevisti, ma non critici `ERROR`: errore di evento che potrebbe richiedere l'attenzione dell'utente `METRICS`: usato per eventi con volumi elevati archiviati solo nella tabella Delta e non visualizzati nell'interfaccia utente delle pipeline.
`maturity_level`	Stabilità dello schema di eventi. I valori possibili sono: `STABLE`: lo schema è stabile e non cambierà. `NULL`: lo schema è stabile e non cambierà. Il valore potrebbe essere `NULL` se il record è stato creato prima dell'aggiunta del `maturity_level` campo (versione 2022.37). `EVOLVING`: lo schema non è stabile e potrebbe cambiare. `DEPRECATED`: lo schema è deprecato e il runtime delle pipeline dichiarative di Lakeflow Spark potrebbe interrompere la produzione di questo evento in qualsiasi momento. Non è consigliabile creare monitoraggio o avvisi sui campi `EVOLVING` o `DEPRECATED`.
`error`	Se si è verificato un errore, i dettagli che descrivono l'errore.
`details`	Stringa JSON contenente i dettagli strutturati dell'evento. Questo è il campo principale usato per l'analisi degli eventi. Il formato della stringa JSON dipende da `event_type`. Per ulteriori informazioni, vedere l'oggetto "Details".
`event_type`	Tipo di evento. Per un elenco dei tipi di evento e il tipo di oggetto dettagli che creano, vedere l'oggetto dettaglio.

Oggetto dettagli

Ogni evento ha proprietà diverse details nell'oggetto JSON, in base all'oggetto event_type dell'evento. In questa tabella sono elencati event_type e l'associato details. Le details proprietà sono descritte nella sezione Tipi di dettagli .

Tipo di dettagli per `event_type`	Description
`create_update`	Acquisisce la configurazione completa usata per avviare un aggiornamento della pipeline. Include qualsiasi configurazione impostata da Databricks. Per informazioni dettagliate, vedere Dettagli per create_update.
`user_action`	Fornisce informazioni dettagliate su qualsiasi azione dell'utente sulla pipeline( inclusa la creazione di una pipeline, nonché l'avvio o l'annullamento di un aggiornamento). Per dettagli, vedere evento user_action.
`runtime_details`	Fornisce informazioni dettagliate sul runtime usato per l'aggiornamento della pipeline. Per informazioni dettagliate, vedere Dettagli per runtime_details evento.
`flow_progress`	Descrive il ciclo di vita di un flusso dall'avvio, dall'esecuzione, al completamento o all'esito negativo. Per informazioni dettagliate, vedere Dettagli dell'evento flow_progress.
`update_progress`	Descrive il ciclo di vita di un aggiornamento della pipeline dall'avvio, dall'esecuzione, al completamento o non riuscito. Per informazioni dettagliate, vedere Dettagli sull'evento update_progress.
`flow_definition`	Definisce lo schema e il piano di query per le trasformazioni che si verificano in un determinato flusso. Può essere considerato come i bordi del DAG del flusso di dati. Può essere usato per calcolare la derivazione per ogni flusso e per visualizzare il piano di query illustrato. Per dettagli, vedere Dettagli dell'evento flow_definition.
`dataset_definition`	Definisce un set di dati, ovvero l'origine o la destinazione per un determinato flusso. Per i dettagli, vedere Dettagli per l'evento dataset_definition.
`sink_definition`	Definisce un sink specifico. Per informazioni dettagliate, vedere Dettagli per evento sink_definition.
`deprecation`	Elenca le funzionalità che saranno presto o attualmente deprecate usate da questa pipeline. Per esempi dei valori, consultare Enum dettagli per l'evento di deprecazione.
`cluster_resources`	Include informazioni sulle risorse del cluster per le pipeline in esecuzione nel calcolo classico. Queste metriche vengono popolate solo per le pipeline di calcolo classiche. Per dettagli, vedere Dettagli dell'evento cluster_resources.
`autoscale`	Include informazioni sulla scalabilità automatica per le pipeline in esecuzione nel calcolo classico. Queste metriche vengono popolate solo per le pipeline di calcolo classiche. Per informazioni dettagliate, vedere Dettagli per l'evento di scalabilità automatica.
`planning_information`	Rappresenta le informazioni di pianificazione correlate all'aggiornamento incrementale rispetto all'aggiornamento completo delle visualizzazioni materializzate. Può essere utilizzato per ottenere ulteriori dettagli sul motivo per cui una visualizzazione materializzata è completamente ricalcolata. Per informazioni dettagliate, vedere Dettagli per l'evento planning_information.
`hook_progress`	Evento per indicare lo stato corrente di un hook utente durante l'esecuzione della pipeline. Usato per il monitoraggio dello stato degli hook di eventi, ad esempio per l'invio a prodotti di osservabilità esterna. Per informazioni dettagliate, vedere Dettagli dell'evento hook_progress.
`operation_progress`	Include informazioni sullo stato di avanzamento di un'operazione. Per informazioni dettagliate, vedere Dettagli sull'evento di avanzamento dell'operazione.
`stream_progress`	Include informazioni sullo stato di avanzamento di una pipeline. Per informazioni dettagliate, vedere Dettagli per evento stream_progress.

Tipi di dettagli

Gli oggetti seguenti rappresentano il details di un diverso tipo di evento all'interno dell'oggetto PipelineEvent.

Dettagli per la creazione/aggiornamento

Dettagli dell'evento create_update .

Campo	Description
`run_as`	ID utente di cui verrà eseguito l'aggiornamento per conto di . In genere si tratta del proprietario della pipeline o di un principale del servizio.
`cause`	Motivo dell'aggiornamento. `JOB_TASK` In genere, se viene eseguito da un processo o `USER_ACTION` quando viene eseguito in modo interattivo da un utente.

Dettagli dell'evento user_action

Dettagli dell'evento user_action . Include i campi seguenti:

Campo	Description
`user_name`	Nome dell'utente che ha attivato un aggiornamento della pipeline.
`user_id`	ID dell'utente che ha attivato un aggiornamento della pipeline. Questo non è sempre lo stesso dell'utente, il quale potrebbe essere un principal del servizio `run_as` o un altro utente.
`action`	Azione eseguita dall'utente, inclusi `START` e `CREATE`.

Dettagli per runtime_details evento

Dettagli dell'evento runtime_details .

Campo	Description
`dbr_version`	Versione del runtime di Databricks.
`image_key`	Build di Databricks Runtime usata per l'aggiornamento.

Dettagli dell'evento flow_progress

Dettagli di un flow_progress evento.

Campo	Description
`status`	Nuovo stato del flusso. Può essere uno dei seguenti: `QUEUED` `STARTING` `RUNNING` `COMPLETED` `FAILED` `SKIPPED` `STOPPED` `IDLE` `EXCLUDED`
`metrics`	Metriche sul flusso. Per informazioni dettagliate, vedere FlowMetrics.
`data_quality`	Metriche relative alla qualità dei dati sul flusso e sulle aspettative associate. Per informazioni dettagliate, vedere DataQualityMetrics.

Dettagli dell'evento update_progress

Dettagli dell'evento update_progress.

Campo	Description
`state`	Nuovo stato dell'aggiornamento. Può essere uno dei seguenti: `QUEUED` `CREATED` `WAITING_FOR_RESOURCES` `INITIALIZING` `RESETTING` `SETTING_UP_TABLES` `RUNNING` `STOPPING` `COMPLETED` `FAILED` `CANCELED` Utile per calcolare la durata di varie fasi di un aggiornamento della pipeline dalla durata totale al tempo impiegato per l'attesa delle risorse, ad esempio.
`cancellation_cause`	Motivo per cui un aggiornamento ha raggiunto lo `CANCELED` stato. Include motivi come `USER_ACTION` o `WORKFLOW_CANCELLATION` (il flusso di lavoro che ha attivato l'aggiornamento è stato annullato).

Dettagli dell'evento flow_definition

Dettagli di un flow_definition evento.

Campo	Description
`input_datasets`	Input letti da questo flusso.
`output_dataset`	Il set di dati di output a cui questo flusso scrive.
`output_sink`	La destinazione di output su cui questo flusso scrive.
`explain_text`	Piano di query spiegato.
`schema_json`	Stringa dello schema JSON DI SPARK SQL.
`schema`	Schema di questo flusso.
`flow_type`	Tipo di flusso. Può essere uno dei seguenti: `COMPLETE`: la scrittura della tabella di streaming verso la destinazione avviene in modalità completa di streaming. `CHANGE`: tabella di streaming con `APPLY_CHANGES_INTO`. `SNAPSHOT_CHANGE`: tabella di streaming con `APPLY CHANGES INTO ... FROM SNAPSHOT ...`. `APPEND`: la tabella di flusso scrive nella destinazione in modalità di aggiunta (streaming). `MATERIALIZED_VIEW`: restituisce una vista materializzata. `VIEW`: restituisce un output in una vista.
`comment`	Commento utente o descrizione sul set di dati.
`spark_conf`	Configurazioni Spark impostate per questo flusso.
`language`	Lingua utilizzata per creare questo flusso. Può essere `SCALA`, `PYTHON` o `SQL`.
`once`	Indica se questo flusso è stato dichiarato per essere eseguito una sola volta.

Dettagli dell'evento dataset_definition

Dettagli di un dataset_definition evento. Include i campi seguenti:

Campo	Description
`dataset_type`	Differenzia le viste materializzate e le tabelle di streaming.
`num_flows`	Numero di flussi che scrivono nel set di dati.
`expectations`	Aspettative associate al set di dati.

Dettagli dell'evento sink_definition

Dettagli di un sink_definition evento.

Campo	Description
`format`	Formato del sink.
`options`	Le opzioni chiave-valore associate al sink.

Enumerazione dei dettagli per l'evento di deprecazione

L'evento deprecation ha un message campo. I valori possibili per il message includono quanto segue. Si tratta di un elenco parziale che cresce nel tempo.

Campo	Description
`TABLE_MANAGED_BY_MULTIPLE_PIPELINES`	Una tabella viene gestita da più linee di pipeline.
`INVALID_CLUSTER_LABELS`	Utilizzo di etichette di cluster non supportate.
`PINNED_DBR_VERSION`	Utilizzo di `dbr_version` invece di `channel` nelle impostazioni della pipeline.
`PREVIOUS_CHANNEL_USED`	Uso del canale di versione `PREVIOUS`, che potrebbe essere rimosso in una versione futura.
`LONG_DATASET_NAME`	Uso di un nome del set di dati più lungo della lunghezza supportata.
`LONG_SINK_NAME`	Uso di un nome per il sink più lungo della lunghezza supportata.
`LONG_FLOW_NAME`	Uso di un nome di flusso più lungo della lunghezza supportata.
`ENHANCED_AUTOSCALING_POLICY_COMPLIANCE`	I criteri del cluster sono conformi solo quando la scalabilità automatica avanzata usa dimensioni fisse del cluster.
`DATA_SAMPLE_CONFIGURATION_KEY`	L'uso della chiave di configurazione per configurare il campionamento dei dati è deprecato.
`INCOMPATIBLE_CLUSTER_SETTINGS`	Le impostazioni correnti del cluster o i criteri del cluster non sono più compatibili con le pipeline dichiarative di Lakeflow Spark.
`STREAMING_READER_OPTIONS_DROPPED`	Uso delle opzioni del lettore di streaming eliminate.
`DISALLOWED_SERVERLESS_STATIC_SPARK_CONFIG`	L'impostazione di configurazioni spark statiche tramite la configurazione della pipeline per le pipeline serverless non è consentita.
`INVALID_SERVERLESS_PIPELINE_CONFIG`	Il cliente serverless fornisce una configurazione della pipeline non valida.
`UNUSED_EXPLICIT_PATH_ON_UC_MANAGED_TABLE`	Specificazione dei percorsi di tabella espliciti inutilizzati nelle tabelle gestite da UC.
`FOREACH_BATCH_FUNCTION_NOT_SERIALIZABLE`	La funzione foreachBatch specificata non è serializzabile.
`DROP_PARTITION_COLS_NO_PARTITIONING`	L'eliminazione dell'attributo partition_cols non comporta il partizionamento.
`PYTHON_CREATE_TABLE`	Uso @dlt.create\_table di anziché di @dp.table o @dp.materialized\_view.
`PYTHON_CREATE_VIEW`	Uso @dlt.create\_view di anziché di @dp.temporary\_view.
`PYTHON_CREATE_STREAMING_LIVE_TABLE`	Uso `create_streaming_live_table` di anziché di `create_streaming_table`.
`PYTHON_CREATE_TARGET_TABLE`	Uso `create_target_table` di anziché di `create_streaming_table`.
`FOREIGN_KEY_TABLE_CONSTRAINT_CYCLE`	Il set di tabelle gestite dalla pipeline ha un ciclo nel set di vincoli di chiave esterna.
`PARTIALLY_QUALIFIED_TABLE_REFERENCE_INCOMPATIBLE_WITH_DEFAULT_PUBLISHING_MODE`	Riferimento di tabella parzialmente qualificato con significati diversi in modalità di pubblicazione predefinita e in modalità di pubblicazione legacy.

Dettagli dell'evento cluster_resources

Dettagli di un cluster_resources evento. Applicabile solo per le pipeline in esecuzione sui sistemi di calcolo classico.

Campo	Description
`task_slot_metrics`	Metriche dello slot di attività del cluster. Per informazioni dettagliate, vedere Oggetto TaskSlotMetrics
`autoscale_info`	Stato dei ridimensionatori automatici. Per informazioni dettagliate, vedere Oggetto AutoscaleInfo

Dettagli per l'evento di scalabilità automatica

Dettagli dell'evento autoscale. Gli eventi di scalabilità automatica sono applicabili solo quando la pipeline usa il calcolo classico.

Campo	Description
`status`	Stato dell'evento. Può essere uno dei seguenti: `SUCCEEDED` `RESIZING` `FAILED` `PARTIALLY_SUCCEEDED`
`optimal_num_executors`	Numero ottimale di esecutori suggerito dall'algoritmo prima di applicare i limiti `min_workers` e `max_workers`.
`requested_num_executors`	Numero di executor dopo il troncamento del numero ottimale di executor suggeriti dall'algoritmo ai limiti di `min_workers` e `max_workers`.

Dettagli dell'evento di pianificazione_informazioni

Dettagli di un planning_information evento. Utile per visualizzare i dettagli relativi al tipo di aggiornamento scelto per un determinato flusso durante un aggiornamento. Può essere usato per eseguire il debug del motivo per cui un aggiornamento viene aggiornato completamente anziché aggiornato in modo incrementale. Per altre informazioni sugli aggiornamenti incrementali, vedere Aggiornamento incrementale per le viste materializzate

Campo	Description
`technique_information`	Informazioni correlate all'aggiornamento. Include entrambe le informazioni sulla metodologia di aggiornamento scelta e sulle possibili metodologie di aggiornamento considerate. Utile per il debug del motivo per cui una vista materializzata non è riuscita a eseguire l'incrementalizzazione. Per altri dettagli, vedi TechniqueInformation.
`source_table_information`	Informazioni sulla tabella di origine. Può essere utile per il debug del motivo per cui una vista materializzata non è riuscita a eseguire l'incrementalizzazione. Per informazioni dettagliate, vedi Oggetto TableInformation.
`target_table_information`	Informazioni sulla tabella di destinazione. Per informazioni dettagliate, vedi Oggetto TableInformation.

Dettagli per l'evento hook_progress

Dettagli di un hook_progress evento. Include i campi seguenti:

Campo	Description
`name`	Nome dell'hook dell'utente.
`status`	Stato dell'hook dell'utente.

Dettagli per l'evento operation_progress

Dettagli di un operation_progress evento. Include i campi seguenti:

Campo	Description
`type`	Tipo di operazione rilevata. Uno dei seguenti: `AUTO_LOADER_LISTING` `AUTO_LOADER_BACKFILL` `CONNECTOR_FETCH` `CDC_SNAPSHOT`
`status`	Lo stato dell'operazione. Uno dei seguenti: `STARTED` `COMPLETED` `CANCELED` `FAILED` `IN_PROGRESS`
`duration_ms`	Tempo totale trascorso dell'operazione in millisecondi. Incluso solo nell'evento finale (dove lo stato è `COMPLETED`, `CANCELED`o `FAILED`).

Dettagli per l'evento stream_progress

Dettagli di un stream_progress evento. Include il campo seguente:

Campo	Description
`stream_progress`	Dettagli del flusso della pipeline. Analogamente alle `StreamingQueryListener` metriche per Structured Streaming. Le differenze sono descritte nei paragrafi seguenti. Per la documentazione completa sulle `StreamingQueryListener` metriche, vedere Metriche dell'oggetto StreamingQueryListener.

Differenze tra stream_progress le metriche degli oggetti e StreamingQueryListener :

Le metriche seguenti sono presenti in StreamingQueryListener, ma non in stream_progress: numInputRows, inputRowsPerSeconde processedRowsPerSecond.
Per i flussi Kafka e Kinesis, i campi startOffset, endOffset e latestOffset possono essere troppo grandi e vengono troncati. Per ognuno di questi campi, viene aggiunto un campo aggiuntivo ...Truncated , startOffsetTruncated, endOffsetTruncatede latestOffsetTruncated, con un valore booleano per determinare se i dati vengono troncati.

Altri oggetti

Gli oggetti seguenti rappresentano dati o enumerazioni aggiuntivi all'interno degli oggetti evento.

Oggetto AutoscaleInfo

Metriche di scalabilità automatica per un cluster. Applicabile solo per le pipeline in esecuzione sui sistemi di calcolo classico.

Campo	Description
`state`	Stato della scalabilità automatica. Può essere uno dei seguenti: `SUCCEEDED` `RESIZING` `FAILED` `PARTIALLY_SUCCEEDED`
`optimal_num_executors`	Numero ottimale di executor. Si tratta delle dimensioni ottimali suggerite dall'algoritmo prima di essere troncate dal numero minimo/massimo specificato dall'utente di executor.
`latest_requested_num_executors`	Il numero di executor richiesto dal responsabile dello stato al gestore del cluster nella richiesta più recente. Si tratta del numero di esecutori a cui il gestore dello stato sta cercando di ridimensionarsi e viene aggiornato quando il gestore dello stato tenta di uscire dallo stato di ridimensionamento in caso di timeout. Questo campo non viene popolato se non è presente alcuna richiesta in sospeso.
`request_pending_seconds`	Periodo di tempo in cui la richiesta di ridimensionamento è stata sospesa. Questo campo non viene popolato se non vi è alcuna richiesta in sospeso.

Oggetto CostModelRejectionSubType

Enumerazione dei motivi per cui la incrementalizzazione viene rifiutata, in base al costo dell'aggiornamento completo rispetto all'aggiornamento incrementale in un planning_information evento.

Value	Description
`NUM_JOINS_THRESHOLD_EXCEEDED`	Aggiorna completamente perché la query contiene troppi join.
`CHANGESET_SIZE_THRESHOLD_EXCEEDED`	Aggiornamento completo perché troppe righe nelle tabelle di base sono state modificate.
`TABLE_SIZE_THRESHOLD_EXCEEDED`	Aggiornamento completo perché le dimensioni della tabella di base superano la soglia.
`EXCESSIVE_OPERATOR_NESTING`	Aggiornamento completo perché la definizione della query è complessa e presenta molti livelli di annidamento degli operatori.
`COST_MODEL_REJECTION_SUB_TYPE_UNSPECIFIED`	Ricarica completa per qualsiasi altro motivo.

Oggetto DataQualityMetrics

Metriche sul modo in cui vengono soddisfatte le aspettative all'interno del flusso. Usato nei dettagli di un flow_progress evento.

Campo	Description
`dropped_records`	Numero di record che sono stati eliminati perché non hanno superato una o più aspettative.
`expectations`	Metriche delle aspettative aggiunte a ogni set di dati nel piano di query del flusso. Quando ci sono più aspettative, questo può essere usato per tenere traccia delle aspettative soddisfatte o non riuscite. Per informazioni dettagliate, vedere Oggetto ExpectationMetrics.

Oggetto ExpectationMetrics

Metriche sulle aspettative, per un'aspettativa specifica.

Campo	Description
`name`	Nome dell'aspettativa.
`dataset`	Nome del set di dati a cui è stata aggiunta l'aspettativa.
`passed_records`	Numero di record che superano le aspettative.
`failed_records`	Numero di record che non soddisfano le aspettative. Tiene traccia del fatto che l'aspettativa sia stata soddisfatta, ma non descrive cosa accade ai record (avviso, fallimento o eliminazione dei record).

Oggetto FlowMetrics

Metriche sul flusso, inclusi sia il totale per il flusso, sia suddiviso in base a un'origine specifica.Metrics about the flow, including both total for the flow, and broken out by specific source. Usato nei dettagli di un flow_progress evento.

Ogni origine di streaming supporta solo metriche di flusso specifiche. La tabella seguente illustra le metriche disponibili per le origini di streaming supportate:

source	byte backlog	registrazioni arretrate	arretrato secondi	file backlog
Kafka	✓	✓
Kinesis	✓		✓
Delta	✓			✓
Caricatore automatico	✓			✓
Google Pub/Sub	✓	✓

Campo	Description
`num_output_rows`	Numero di righe di output scritti in seguito a un aggiornamento di questo flusso.
`backlog_bytes`	Backlog totale misurato in byte attraverso tutte le sorgenti di input nel flusso.
`backlog_records`	Totale dei registri di backlog attraverso tutte le fonti di input nel flusso.
`backlog_files`	Totale dei file di backlog da tutte le sorgenti di input nel flusso.
`backlog_seconds`	Numero massimo di secondi di backlog in tutte le origini di input nel flusso.
`executor_time_ms`	Somma dei tempi di esecuzione di tutte le attività di questo flusso in millisecondi durante il periodo di report.
`executor_cpu_time_ms`	Somma di tutti i tempi di CPU di esecuzione delle attività di questo flusso, espressi in millisecondi, relativo al periodo di report.
`num_upserted_rows`	Numero di righe di output inserite nel set di dati da un aggiornamento di questo flusso.
`num_deleted_rows`	Numero di righe di output esistenti eliminate dal set di dati da un aggiornamento di questo flusso.
`num_output_bytes`	Numero di byte di output scritti da un aggiornamento di questo flusso.
`source_metrics`	Metriche per ogni origine di input nel flusso. Utile per il monitoraggio dello stato di inserimento da origini esterne alle pipeline dichiarative di Lakeflow Spark( ad esempio Apache Kafka, Pulsar o Auto Loader). Include i campi: `source_name`: nome dell'origine. `backlog_bytes`: numero di byte in arretrato per questa sorgente. `backlog_records`: record di backlog per questa origine. `backlog_files`: File di backlog per questa fonte. `backlog_seconds`: secondi di backlog per questa sorgente.

Oggetto IncrementalizationIssue

Rappresenta i problemi di incrementalizzazione che potrebbero causare un aggiornamento completo durante la pianificazione di un aggiornamento.

Campo	Description
`issue_type`	Tipo di problema che potrebbe impedire alla vista materializzata di aggiornarsi in maniera incrementale. Per informazioni dettagliate, vedere Tipo di problema.
`prevent_incrementalization`	Se questo problema ha impedito che l'incrementalizzazione si verificasse.
`table_information`	Informazioni sulla tabella associata a problemi come `CDF_UNAVAILABLE`, `INPUT_NOT_IN_DELTA`, `DATA_FILE_MISSING`.
`operator_name`	Informazioni relative al piano di progetto. Impostare per i problemi quando il tipo di problema è `PLAN_NOT_DETERMINISTIC` o `PLAN_NOT_INCREMENTALIZABLE` all'operatore o all'espressione che causa il non determinismo o la non incrementalizzabilità.
`expression_name`	Nome dell'espressione.
`join_type`	Informazioni ausiliarie quando l'operatore è un join. Ad esempio, `JOIN_TYPE_LEFT_OUTER` o `JOIN_TYPE_INNER`.
`plan_not_incrementalizable_sub_type`	Categoria dettagliata quando il tipo di problema è `PLAN_NOT_INCREMENTALIZABLE`. Per informazioni dettagliate, vedere Oggetto PlanNotIncrementalizableSubType.
`plan_not_deterministic_sub_type`	Categoria dettagliata quando il tipo di problema è `PLAN_NOT_DETERMINISTIC`. Per informazioni dettagliate, vedere Oggetto PlanNotDeterministicSubType.
`fingerprint_diff_before`	Il differenziale dell'impronta digitale precedente.
`fingerprint_diff_current`	Differenza dall'impronta digitale corrente.
`cost_model_rejection_subtype`	Categoria dettagliata quando il tipo di problema è `INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL`. Per informazioni dettagliate, vedere Oggetto CostModelRejectionSubType.

Oggetto TipoDiProblema

Enumerazione di tipi di problema che potrebbero causare un aggiornamento completo.

Value	Description
`CDF_UNAVAILABLE`	CDF (feed di dati di modifica) non è abilitato in alcune tabelle di base. Il `table_information` campo fornisce informazioni sulla tabella in cui non è abilitato CDF. Usare `ALTER TABLE <table-name> SET TBLPROPERTIES ( 'delta.enableChangeDataFeed' = true)` per abilitare CDF per la tabella di base. Se la tabella di origine è una vista materializzata, CDF deve essere impostato su `ON` per impostazione predefinita.
`DELTA_PROTOCOL_CHANGED`	Aggiornamento completo perché alcune tabelle di base (dettagli nel campo `table_information`) hanno subito una modifica dovuta al protocollo Delta.
`DATA_SCHEMA_CHANGED`	Aggiornamento completo perché alcune tabelle di base (dettagli nel `table_information` campo) hanno apportato una modifica dello schema dei dati nelle colonne usate dalla definizione della vista materializzata. Non è rilevante se una colonna che la vista materializzata non utilizza è stata modificata o aggiunta alla tabella di base.
`PARTITION_SCHEMA_CHANGED`	Aggiornamento completo perché alcune tabelle di base (dettagli nel `table_information` campo) hanno avuto una modifica dello schema di partizione.
`INPUT_NOT_IN_DELTA`	Aggiornamento completo perché la definizione della vista materializzata comporta alcuni input non Delta.
`DATA_FILE_MISSING`	Aggiornamento completo perché alcuni file di tabella di base sono già sotto vuoto a causa del periodo di conservazione.
`PLAN_NOT_DETERMINISTIC`	Aggiornamento completo perché alcuni operatori o espressioni nella definizione della vista materializzata non sono deterministici. I `operator_name` campi e `expression_name` forniscono informazioni sull'operatore o l'espressione che ha causato il problema.
`PLAN_NOT_INCREMENTALIZABLE`	Aggiornamento completo perché alcuni operatori o espressioni nella definizione della vista materializzata non sono incrementalizzabili.
`SERIALIZATION_VERSION_CHANGED`	Aggiornamento completo perché è stata apportata una modifica significativa nella logica di rilevamento delle impronte digitali delle query.
`QUERY_FINGERPRINT_CHANGED`	Aggiornamento completo perché la definizione della vista materializzata è stata modificata o le versioni dichiarative di Lakeflow Spark hanno causato una modifica nei piani di valutazione delle query.
`CONFIGURATION_CHANGED`	Aggiornamento completo perché le configurazioni delle chiavi (ad esempio , `spark.sql.ansi.enabled`) che potrebbero influire sulla valutazione delle query sono state modificate. La ricomputazione completa è necessaria per evitare stati incoerenti nella vista materializzata.
`CHANGE_SET_MISSING`	Aggiornamento completo perché è il primo calcolo della vista materializzata. Questo comportamento è previsto per il calcolo della vista materializzata iniziale.
`EXPECTATIONS_NOT_SUPPORTED`	Aggiornamento completo perché la definizione della vista materializzata include aspettative, che non sono supportate per gli aggiornamenti incrementali. Rimuovere le aspettative o gestirle al di fuori della definizione della vista materializzata se è necessario il supporto incrementale.
`TOO_MANY_FILE_ACTIONS`	Aggiornamento completo perché il numero di azioni file ha superato la soglia per l'elaborazione incrementale. Valutare la possibilità di ridurre la varianza dei file nelle tabelle di base o di aumentare le soglie.
`INCREMENTAL_PLAN_REJECTED_BY_COST_MODEL`	Aggiornamento completo perché il modello di costo ha determinato che un aggiornamento completo è più efficiente rispetto alla manutenzione incrementale. Esaminare il comportamento del modello di costo o la complessità del piano di query per consentire gli aggiornamenti incrementali.
`ROW_TRACKING_NOT_ENABLED`	Aggiornamento completo perché il rilevamento delle righe non è abilitato in una o più tabelle di base. Abilitare il rilevamento delle righe usando `ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableRowTracking' = true)`.
`TOO_MANY_PARTITIONS_CHANGED`	Aggiornamento completo perché troppe partizioni sono state modificate nelle tabelle di base. Provare a limitare il numero di modifiche alla partizione per rimanere entro i limiti di elaborazione incrementale.
`MAP_TYPE_NOT_SUPPORTED`	Aggiornamento completo perché la definizione di vista materializzata include un tipo di mappa, che non è supportato per gli aggiornamenti incrementali. Prendere in considerazione la ristrutturazione dei dati per evitare tipi di mapping nella vista materializzata.
`TIME_ZONE_CHANGED`	Aggiornamento completo perché l'impostazione del fuso orario di sistema o della sessione è stata modificata.
`DATA_HAS_CHANGED`	Aggiornamento completo perché i dati rilevanti per la vista materializzata sono stati modificati in modo da impedire aggiornamenti incrementali. Valutare le modifiche e la struttura dei dati della definizione della vista per garantire la compatibilità con la logica incrementale.
`PRIOR_TIMESTAMP_MISSING`	Eseguire un aggiornamento completo perché manca il timestamp dell'ultima esecuzione avvenuta. Ciò può verificarsi dopo la perdita di metadati o l'intervento manuale.

Oggetto MaintenanceType

Enumerazione dei tipi di manutenzione che possono essere scelti durante un planning_information evento. Se il tipo non è MAINTENANCE_TYPE_COMPLETE_RECOMPUTE o MAINTENANCE_TYPE_NO_OP, il tipo è un aggiornamento incrementale.

Value	Description
`MAINTENANCE_TYPE_COMPLETE_RECOMPUTE`	Ricalcolo completo; sempre visualizzato.
`MAINTENANCE_TYPE_NO_OP`	Quando le tabelle di base non cambiano.
`MAINTENANCE_TYPE_PARTITION_OVERWRITE`	Aggiornare in modo incrementale le partizioni interessate quando la vista materializzata è co-partizionata con una delle tabelle di origine.
`MAINTENANCE_TYPE_ROW_BASED`	Aggiornare in modo incrementale creando set di modifiche modulari per varie operazioni, ad esempio `JOIN`, `FILTER`e `UNION ALL,` e componendole per calcolare query complesse. Usato quando il tracciamento delle righe per le tabelle sorgente è abilitato ed è presente un numero limitato di join per la query.
`MAINTENANCE_TYPE_APPEND_ONLY`	Aggiornare in modo incrementale solo computando nuove righe perché non sono presenti inserimenti o aggiornamenti né eliminazioni nelle tabelle di origine.
`MAINTENANCE_TYPE_GROUP_AGGREGATE`	Aggiornare in modo incrementale calcolando le modifiche per ogni valore di aggregazione. Usato quando le aggregazioni associative, ad esempio `count`, `summean`, e `stddev`, si trovano al livello superiore della query.
`MAINTENANCE_TYPE_GENERIC_AGGREGATE`	Aggiornare in modo incrementale calcolando solo i gruppi di aggregazione interessati. Usato quando le aggregazioni come `median` (non solo quelle associative) sono al livello superiore della query.
`MAINTENANCE_TYPE_WINDOW_FUNCTION`	Aggiornare in modo incrementale le query con funzioni finestra, ad esempio `PARTITION BY` ricompilando solo le partizioni modificate. Utilizzato quando tutte le funzioni della finestra hanno una `PARTITION BY` clausola o `JOIN` e si trovano al livello superiore della query.

Oggetto origine

Posizione in cui ha avuto origine l'evento.

Campo	Description
`cloud`	Provider di servizi cloud. I valori possibili sono: AWS Azzurro GCP
`region`	Regione cloud
`org_id`	ID dell'organizzazione o ID dell'area di lavoro dell'utente. Univoco all'interno di un cloud. Utile per identificare l'area di lavoro o per creare un join con altre tabelle, ad esempio tabelle di fatturazione del sistema.
`pipeline_id`	ID della Pipeline. Identificatore univoco per la pipeline. Utile per identificare la pipeline, o per eseguire un join con altre tabelle, come ad esempio le tabelle di fatturazione di sistema.
`pipeline_type`	Il tipo di pipeline per mostrare il contesto in cui è stata creata. I valori possibili sono: `DBSQL`: pipeline creata tramite Databricks SQL. `WORKSPACE`: una pipeline ETL creata tramite le pipeline dichiarative di Lakeflow Spark. `MANAGED_INGESTION`: pipeline di inserimento gestita da Lakeflow Connect. `BRICKSTORE`: pipeline per aggiornare una tabella online per la gestione delle funzionalità in tempo reale. `BRICKINDEX`: Una pipeline per aggiornare un database vettoriale. Per altri dettagli, vedere Ricerca vettoriale.
`pipeline_name`	Nome della pipeline.
`cluster_id`	ID del cluster in cui si verifica un'esecuzione. Univoco a livello globale.
`update_id`	L'ID di una singola esecuzione della pipeline. Questo è equivalente a riferito all'identificativo di esecuzione.
`table_name`	Nome della tabella (Delta) in cui scrivere.
`dataset_name`	Nome completo di un set di dati.
`sink_name`	Il nome di un "sink".
`flow_id`	ID del flusso. Tiene traccia dello stato del flusso utilizzato durante più aggiornamenti. Finché `flow_id` rimane lo stesso, il flusso viene aggiornato in modo incrementale. La `flow_id` si modifica quando la visualizzazione materializzata subisce un aggiornamento completo, il checkpoint viene reimpostato o viene eseguita una ricompilazione completa.
`flow_name`	Nome del flusso.
`batch_id`	L'identificativo di un microbatch. Unico all'interno di un flusso.
`request_id`	ID della richiesta che ha causato un aggiornamento.

Oggetto PlanNotDeterministicSubType

Enumerazione di casi non deterministici per un planning_information evento.

Value	Description
`STREAMING_SOURCE`	Aggiornamento completo perché la definizione della vista materializzata include un'origine di streaming, che non è supportata.
`USER_DEFINED_FUNCTION`	Aggiornamento completo perché la vista materializzata include una funzione definita dall'utente non supportata. Sono supportate solo le UDF Python deterministiche. Altre UDF (funzioni definite dall'utente) potrebbero impedire aggiornamenti incrementali.
`TIME_FUNCTION`	Aggiornamento completo perché la vista materializzata include una funzione basata sul tempo, `CURRENT_DATE` ad esempio o `CURRENT_TIMESTAMP`. La `expression_name` proprietà fornisce il nome della funzione non supportata.
`NON_DETERMINISTIC_EXPRESSION`	Aggiornamento completo perché la query include un'espressione non deterministica come `RANDOM()`. La `expression_name` proprietà indica la funzione non deterministica che impedisce la manutenzione incrementale.

Oggetto PlanNotIncrementalizableSubType

Un'enumerazione dei motivi per cui un piano di aggiornamento potrebbe non essere incrementalizzabile.

Value	Description
`OPERATOR_NOT_SUPPORTED`	Aggiorna completamente perché il piano di query include un operatore non supportato. La `operator_name` proprietà fornisce il nome dell'operatore non supportato.
`AGGREGATE_NOT_TOP_NODE`	Aggiornamento completo perché un operatore di aggregazione (`GROUP BY`) non è al livello superiore del piano di query. La manutenzione incrementale supporta le aggregazioni solo al livello superiore. Valutare la possibilità di definire due viste materializzate per separare l'aggregazione.
`AGGREGATE_WITH_DISTINCT`	Aggiornamento completo perché l'aggregazione include una `DISTINCT` clausola , che non è supportata per gli aggiornamenti incrementali.
`AGGREGATE_WITH_UNSUPPORTED_EXPRESSION`	Aggiornamento completo perché l'aggregazione include espressioni non supportate. La `expression_name` proprietà indica l'espressione problematica.
`SUBQUERY_EXPRESSION`	Aggiornamento completo perché la definizione della vista materializzata include un'espressione di sottoquery, che non è supportata.
`WINDOW_FUNCTION_NOT_TOP_LEVEL`	Aggiornamento completo perché una funzione finestra non è al livello superiore del piano di query.
`WINDOW_FUNCTION_WITHOUT_PARTITION_BY`	Aggiornamento completo perché una funzione finestra è definita senza clausola `PARTITION BY`.

Oggetto TableInformation

Rappresenta i dettagli di una tabella considerata durante un planning_information evento.

Campo	Description
`table_name`	Nome della tabella usato nella query dal catalogo Unity o dal metastore Hive. Potrebbe non essere disponibile in caso di accesso basato sul percorso.
`table_id`	Obbligatorio. ID della tabella dal log Delta.
`catalog_table_type`	Tipo della tabella come specificato nel catalogo.
`partition_columns`	Colonne di partizione della tabella.
`table_change_type`	Modificare il tipo nella tabella. Uno di: `TABLE_CHANGE_TYPE_UNKNOWN`, `TABLE_CHANGE_TYPE_APPEND_ONLY`, `TABLE_CHANGE_TYPE_GENERAL_CHANGE`.
`full_size`	Dimensione intera della tabella in numero di byte.
`change_size`	Dimensioni delle righe modificate nei file modificati. Viene calcolato usando `change_file_read_size * num_changed_rows / num_rows_in_changed_files`.
`num_changed_partitions`	Numero di partizioni modificate.
`is_size_after_pruning`	Indica se `full_size` e `change_size` rappresentano i dati dopo l'eliminazione di file statici.
`is_row_id_enabled`	Indica se l'ID riga è abilitato nella tabella.
`is_cdf_enabled`	Indica se CDF è abilitato nella tabella.
`is_deletion_vector_enabled`	Indica se il vettore di eliminazione è abilitato nella tabella.
`is_change_from_legacy_cdf`	Indica se la modifica della tabella proviene da CDF legacy o da CDF basato su ID riga.

Oggetto TaskSlotMetrics

Metriche dello slot di attività per un cluster. Si applica solo agli aggiornamenti della pipeline in esecuzione nel calcolo classico.

Campo	Description
`summary_duration_ms`	Durata in millisecondi in cui vengono calcolate le metriche di aggregazione ( ad esempio , `avg_num_task_slots`).
`num_task_slots`	Numero di slot di attività Spark al momento della segnalazione.
`avg_num_task_slots`	Numero medio degli slot di attività di Spark per la durata complessiva.
`avg_task_slot_utilization`	Utilizzo medio dello slot di attività (numero di attività attive diviso per numero di slot di attività) per la durata del riepilogo.
`num_executors`	Numero di executor Spark nell'istante di creazione di report.
`avg_num_queued_tasks`	Dimensione media della coda di attività (numero totale di attività meno numero di attività attive) nel periodo di riepilogo.

Oggetto TechniqueInformation

Aggiornare le informazioni sulla metodologia per un evento di pianificazione.

Campo	Description
`maintenance_type`	Tipo di manutenzione correlato a questa informazione. Se il tipo non è `MAINTENANCE_TYPE_COMPLETE_RECOMPUTE` o `MAINTENANCE_TYPE_NO_OP`, il flusso viene aggiornato in modo incrementale. Per informazioni dettagliate, vedere Oggetto MaintenanceType.
`is_chosen`	È valido per la tecnica scelta per l'aggiornamento.
`is_applicable`	Indica se il tipo di manutenzione è applicabile.
`incrementalization_issues`	Problemi di aggiornamento incrementale che potrebbero causare un refresh completo. Per i dettagli, vedere IncrementalizationIssue Object.
`change_set_information`	Informazioni sul set di modifiche finale prodotto. I valori sono uno dei seguenti: `CHANGE_SET_TYPE_APPEND_ONLY` `CHANGE_SET_TYPE_GENERAL_ROW_CHANGE`

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-06