Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo descrive la configurazione di base per le pipeline usando l'interfaccia utente dell'area di lavoro.
Databricks consiglia di sviluppare nuove pipeline usando serverless. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline serverless.
Le istruzioni di configurazione in questo articolo usano Il catalogo unity. Per istruzioni su come configurare le pipeline con il metastore Hive legacy, vedere Usare le pipeline dichiarative di Lakeflow Spark con il metastore Hive legacy.
Questo articolo illustra le funzionalità per la modalità di pubblicazione predefinita corrente per le pipeline. Le pipeline create prima del 5 febbraio 2025 potrebbero usare la modalità di pubblicazione legacy e lo schema virtuale LIVE. Visualizza lo schema IN DIRETTA (legacy) .
Annotazioni
L'interfaccia utente ha un'opzione per visualizzare e modificare le impostazioni in JSON. È possibile configurare la maggior parte delle impostazioni con l'interfaccia utente o una specifica JSON. Alcune opzioni avanzate sono disponibili solo usando la configurazione JSON.
I file di configurazione JSON sono utili anche quando si distribuiscono pipeline in nuovi ambienti o usando l'interfaccia della riga di comando o l'API REST.
Per un riferimento completo alle impostazioni di configurazione JSON della pipeline, vedere Configurazioni della pipeline.
Configurare una nuova pipeline
Per configurare una nuova pipeline, eseguire le operazioni seguenti:
Nella parte superiore della barra laterale fare clic
Nuovo e quindi selezionare
Pipeline ETL.
Nella parte superiore assegnare alla pipeline un nome univoco.
Sotto il nome è possibile visualizzare il catalogo predefinito e lo schema scelti automaticamente. Modificare questi valori per assegnare alla pipeline impostazioni predefinite diverse.
Il catalogo predefinito e lo schema predefinito sono i set di dati letti o scritti in quando non si qualificano i set di dati con un catalogo o uno schema nel codice. Per altre informazioni, vedere Oggetti di database in Azure Databricks .
Selezionare l'opzione preferita per creare una pipeline:
- Iniziare con il codice di esempio in SQL per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in SQL.
- Iniziare con il codice di esempio in Python per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in Python.
- Iniziare con una singola trasformazione per creare una nuova pipeline e una nuova struttura di cartelle, con un nuovo file di codice vuoto.
- Aggiungere asset esistenti per creare una pipeline che è possibile associare ai file di codice esistenti nell'area di lavoro.
- Creare un progetto con controllo di versione per creare una pipeline con un nuovo progetto di bundle di risorse di Databricks o per aggiungere la pipeline a un bundle esistente.
È possibile avere file di codice sorgente SQL e Python nella pipeline ETL. Quando si crea una nuova pipeline e si sceglie un linguaggio per il codice di esempio, il linguaggio è solo per il codice di esempio incluso nella pipeline per impostazione predefinita.
Quando si effettua la selezione, si viene reindirizzati alla pipeline appena creata.
La pipeline ETL viene creata con le impostazioni predefinite seguenti:
- Catalogo Unity
- Canale corrente
- Calcolo senza server (serverless)
- Modalità di sviluppo disattivata. Questa impostazione influisce solo sulle esecuzioni pianificate della pipeline. Quando la pipeline viene eseguita dall'editor, viene sempre utilizzata la modalità di sviluppo come impostazione predefinita.
Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere Attività delle pipeline per i compiti.
È possibile modificare queste impostazioni dalla barra degli strumenti della pipeline.
In alternativa, è possibile creare una pipeline ETL dal browser dell'area di lavoro:
- Fare clic su Area di lavoro nel pannello a sinistra.
- Selezionare qualsiasi cartella, incluse le cartelle Git.
- Fare clic su Crea nell'angolo in alto a destra e fare clic su Pipeline ETL.
È anche possibile creare una pipeline ETL dalla pagina processi e pipeline:
- Nell'area di lavoro fare clic
Processi e pipeline nella barra laterale.
- In Nuovo fare clic su Pipeline ETL.
Opzioni di configurazione del calcolo
Databricks consiglia di usare sempre la scalabilità automatica avanzata. I valori predefiniti per altre configurazioni di calcolo funzionano bene per molte pipeline.
Le pipeline serverless rimuovono le opzioni di configurazione di calcolo. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline serverless.
Usare le impostazioni seguenti per personalizzare le configurazioni di calcolo:
- Gli amministratori dell'area di lavoro possono configurare criteri cluster. I criteri di calcolo consentono agli amministratori di controllare quali opzioni di calcolo sono disponibili per gli utenti. Vedere Selezionare un criterio di calcolo.
- Facoltativamente, è possibile configurare la modalità cluster per l'esecuzione con dimensione fissa o scalabilità legacy automatica. Vedere Ottimizzare l'utilizzo del cluster delle pipeline dichiarative di Lakeflow Spark con scalabilità automatica.
- Per i carichi di lavoro con scalabilità automatica abilitata, impostare Numero minimo di lavoratori e Numero massimo di lavoratori per definire i limiti dei comportamenti di ridimensionamento. Vedere Configurare il calcolo classico per le pipeline.
- Facoltativamente, puoi disattivare l'accelerazione Photon. Vedi Che cos'è Photon?.
- Usare i tag cluster per monitorare i costi associati alle pipeline. Vedere Configurare i tag di calcolo.
- Configurare tipi di istanze per specificare il tipo di macchine virtuali utilizzate per eseguire la tua pipeline. Vedi Seleziona i tipi di istanza per eseguire una pipeline.
- Selezionare un tipo di lavoro ottimizzato per i carichi di lavoro configurati nella pipeline.
- Facoltativamente, è possibile selezionare un tipo di driver diverso dal tipo di lavoro. Ciò può essere utile per ridurre i costi nelle pipeline con ampi tipi di lavoratori e un basso utilizzo del calcolo del driver o per scegliere un tipo di driver più grande per evitare problemi di esaurimento della memoria nei carichi di lavoro con numerosi piccoli lavoratori.
Impostare l'utente run-as
L'utente Run-as consente di modificare l'identità usata da una pipeline per l'esecuzione e la proprietà delle tabelle create o aggiornate. Ciò è utile nelle situazioni in cui l'utente originale che ha creato la pipeline è stato disattivato, ad esempio se ha lasciato l'azienda. In questi casi, la pipeline può smettere di funzionare e le tabelle pubblicate possono diventare inaccessibili ad altri utenti. Aggiornando la pipeline per l'esecuzione come identità diversa, ad esempio un'entità servizio, e riassegnando la proprietà delle tabelle pubblicate, è possibile ripristinare l'accesso e assicurarsi che la pipeline continui a funzionare. L'esecuzione di pipeline come entità servizio è considerata una procedura consigliata perché non sono associate a singoli utenti, rendendole più sicure, stabili e affidabili per i carichi di lavoro automatizzati.
Autorizzazioni necessarie
Per l'utente che apporta la modifica:
- CAN_MANAGE autorizzazioni per la pipeline
- CAN_USE ruolo nell'entità servizio (se si imposta run-as su un'entità servizio)
Per l'utente o l'entità servizio run-as:
Accesso all'area di lavoro:
- Autorizzazione di accesso all'area di lavoro per operare all'interno dell'area di lavoro
- Può usare l'autorizzazione per i criteri del cluster usati dalla pipeline
- Autorizzazione di creazione del calcolo nell'area di lavoro
Accesso al codice sorgente:
- Autorizzazione di lettura per tutti i notebook inclusi nel codice sorgente della pipeline
- È possibile leggere l'autorizzazione per i file dell'area di lavoro se la pipeline li usa
Autorizzazioni del catalogo Unity (per le pipeline che usano Unity Catalog):
-
USE CATALOGnel catalogo di destinazione -
USE SCHEMAeCREATE TABLEnello schema di destinazione -
MODIFYautorizzazione per le tabelle esistenti aggiornate dalla pipeline -
CREATE SCHEMAautorizzazione se la pipeline crea nuovi schemi
-
Autorizzazioni metastore Hive legacy (per le pipeline che usano il metastore Hive):
-
SELECTeMODIFYautorizzazioni per database e tabelle di destinazione
-
Accesso aggiuntivo all'archiviazione cloud (se applicabile):
- Autorizzazioni per la lettura da percorsi di archiviazione di origine
- Autorizzazioni per la scrittura nei percorsi di archiviazione di destinazione
Come impostare l'utente run-as
È possibile impostare l'utente run-as tramite le impostazioni della pipeline dalla pagina di monitoraggio della pipeline o dall'editor della pipeline. Per modificare l'utente dalla pagina di monitoraggio della pipeline:
- Fare clic su Processi e pipeline per aprire l'elenco delle pipeline e selezionare il nome della pipeline da modificare.
- Nella pagina di monitoraggio pipline fare clic su Impostazioni.
- Nella barra laterale Impostazioni pipeline fare clic
Modificare accanto a Esegui come.
- Nel widget di modifica selezionare una delle opzioni seguenti:
- Il proprio account utente
- Entità servizio per cui si dispone dell'autorizzazione CAN_USE
- Fare clic su Salva per applicare le modifiche.
Quando l'utente run-as è stato aggiornato correttamente:
- L'identità della pipeline cambia per usare il nuovo utente o l'entità servizio per tutte le esecuzioni future
- Nelle pipeline del catalogo Unity il proprietario delle tabelle pubblicate dalla pipeline viene aggiornato in modo che corrisponda alla nuova identità run-as
- Gli aggiornamenti futuri della pipeline useranno le autorizzazioni e le credenziali della nuova identità run-as
- Le pipeline continue vengono riavviate automaticamente con la nuova identità. Le pipeline attivate non vengono riavviate automaticamente e la modifica run-as può interrompere un aggiornamento attivo
Annotazioni
Se l'aggiornamento di run-as ha esito negativo, viene visualizzato un messaggio di errore che spiega il motivo dell'errore. I problemi comuni includono autorizzazioni insufficienti per l'entità servizio.
Altre considerazioni sulla configurazione
Per le pipeline sono disponibili anche le opzioni di configurazione seguenti:
- L'edizione Avanzata del prodotto consente di accedere a tutte le funzionalità di Lakeflow Spark Declarative Pipelines. Facoltativamente, è possibile eseguire pipeline usando le edizioni del prodotto Pro o Core . Vedere Scegliere un'edizione del prodotto.
- È possibile scegliere di usare la modalità continua durante l'esecuzione di pipeline nell'ambiente di produzione. Consultare Triggered vs. continuous pipeline mode (Modalità pipeline attivata e continua).
- Se il tuo ambiente di lavoro non è configurato per Unity Catalog o il carico di lavoro deve utilizzare il metastore Hive legacy, consulta Usare pipeline dichiarative di Lakeflow Spark con il metastore Hive legacy.
- Aggiungere Notifiche per gli aggiornamenti della posta elettronica in base a condizioni di esito positivo o negativo. Vedi Aggiungi le notifiche di posta elettronica agli eventi della pipeline.
- Usa il campo Configurazione per impostare coppie chiave-valore per la pipeline. Queste configurazioni servono due scopi:
- Impostare parametri arbitrari a cui è possibile fare riferimento nel codice sorgente. Consulta Usare i parametri con le pipeline.
- Configurare le impostazioni della pipeline e le configurazioni di Spark. Vedere Informazioni di riferimento sulle proprietà della pipeline.
- Configurare i tag. I tag sono coppie chiave-valore per la pipeline visibili nell'elenco Flussi di lavoro. I tag associati alla pipeline non influiscono sulla fatturazione.
- Utilizzare il canale Preview per testare la pipeline sui cambiamenti del runtime delle pipeline dichiarative di Lakeflow Spark in sospeso e provare nuove funzionalità.
Scegliere un'edizione del prodotto
Selezionare l'edizione del prodotto Lakeflow Spark Declarative Pipelines con le funzionalità migliori per i requisiti della pipeline. Sono disponibili le seguenti edizioni del prodotto:
-
Coreper eseguire flussi di dati in streaming. Selezionare l'edizioneCorese la pipeline non richiede funzionalità avanzate, come Change Data Capture (CDC) o le aspettative delle pipeline dichiarative di Lakeflow Spark. -
Proper eseguire i carichi di lavoro di streaming di inserimento e di Change Data Capture (CDC). L'edizioneProdel prodotto supporta tutte le funzionalitàCore, oltre al supporto per i carichi di lavoro che richiedono l'aggiornamento delle tabelle in base alle modifiche apportate ai dati di origine. -
Advancedper eseguire carichi di lavoro di ingestione di streaming, carichi di lavoro CDC e carichi di lavoro con requisiti di aspettative. L'edizioneAdvanceddel prodotto supporta le funzionalità delle edizioniCoreeProe include vincoli di qualità dei dati con le aspettative delle pipeline dichiarative di Lakeflow Spark.
È possibile selezionare l'edizione del prodotto quando si crea o si modifica una pipeline. È possibile scegliere un'edizione diversa per ogni pipeline. Vedere la pagina del prodotto Lakeflow Spark Declarative Pipelines.
Nota: se la pipeline include funzionalità non supportate dall'edizione del prodotto selezionata, ad esempio le aspettative, verrà visualizzato un messaggio di errore che ne spiega il motivo. È quindi possibile modificare la pipeline per selezionare l'edizione appropriata.
Configurare il codice sorgente
È possibile usare il browser asset nell'editor di Lakeflow Pipelines per configurare il codice sorgente che definisce la pipeline. Il codice sorgente della pipeline è definito negli script SQL o Python archiviati nei file dell'area di lavoro. Quando si crea o si modifica la pipeline, è possibile aggiungere uno o più file. Per impostazione predefinita, il codice sorgente della pipeline si trova nella transformations cartella nella cartella radice della pipeline.
Poiché Le pipeline dichiarative di Lakeflow Spark analizzano automaticamente le dipendenze dei set di dati per costruire il grafico di elaborazione per la pipeline, è possibile aggiungere asset di codice sorgente in qualsiasi ordine.
Per altre informazioni sull'uso dell'editor di Pipelines lakeflow, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di Pipelines lakeflow.
Gestire le dipendenze esterne per le pipeline che usano Python
Le pipeline supportano l'uso di dipendenze esterne nelle pipeline, ad esempio pacchetti e librerie Python. Per informazioni sulle opzioni e le raccomandazioni per l'uso delle dipendenze, vedere Gestione delle dipendenze Python per le pipeline.
Usare i moduli Python archiviati nell'area di lavoro di Azure Databricks
Oltre a implementare il codice Python nei file di codice sorgente della pipeline, è possibile usare Cartelle Git di Databricks o i file dell'area di lavoro per archiviare il codice come moduli Python. L'archiviazione del codice come moduli Python è particolarmente utile quando si hanno funzionalità comuni da usare in più pipeline o notebook nella stessa pipeline. Per informazioni su come usare i moduli Python con le pipeline, vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.