Condividi tramite


Configurare le pipeline

Questo articolo descrive la configurazione di base per le pipeline usando l'interfaccia utente dell'area di lavoro.

Databricks consiglia di sviluppare nuove pipeline usando serverless. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline serverless.

Le istruzioni di configurazione in questo articolo usano Il catalogo unity. Per istruzioni su come configurare le pipeline con il metastore Hive legacy, vedere Usare le pipeline dichiarative di Lakeflow Spark con il metastore Hive legacy.

Questo articolo illustra le funzionalità per la modalità di pubblicazione predefinita corrente per le pipeline. Le pipeline create prima del 5 febbraio 2025 potrebbero usare la modalità di pubblicazione legacy e lo schema virtuale LIVE. Visualizza lo schema IN DIRETTA (legacy) .

Annotazioni

L'interfaccia utente ha un'opzione per visualizzare e modificare le impostazioni in JSON. È possibile configurare la maggior parte delle impostazioni con l'interfaccia utente o una specifica JSON. Alcune opzioni avanzate sono disponibili solo usando la configurazione JSON.

I file di configurazione JSON sono utili anche quando si distribuiscono pipeline in nuovi ambienti o usando l'interfaccia della riga di comando o l'API REST.

Per un riferimento completo alle impostazioni di configurazione JSON della pipeline, vedere Configurazioni della pipeline.

Configurare una nuova pipeline

Per configurare una nuova pipeline, eseguire le operazioni seguenti:

  1. Nella parte superiore della barra laterale fare clic sull'icona Più.Nuovo e quindi selezionare Icona Pipeline.Pipeline ETL.

  2. Nella parte superiore assegnare alla pipeline un nome univoco.

  3. Sotto il nome è possibile visualizzare il catalogo predefinito e lo schema scelti automaticamente. Modificare questi valori per assegnare alla pipeline impostazioni predefinite diverse.

    Il catalogo predefinito e lo schema predefinito sono i set di dati letti o scritti in quando non si qualificano i set di dati con un catalogo o uno schema nel codice. Per altre informazioni, vedere Oggetti di database in Azure Databricks .

  4. Selezionare l'opzione preferita per creare una pipeline:

    • Iniziare con il codice di esempio in SQL per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in SQL.
    • Iniziare con il codice di esempio in Python per creare una nuova pipeline e una nuova struttura di cartelle, incluso il codice di esempio in Python.
    • Iniziare con una singola trasformazione per creare una nuova pipeline e una nuova struttura di cartelle, con un nuovo file di codice vuoto.
    • Aggiungere asset esistenti per creare una pipeline che è possibile associare ai file di codice esistenti nell'area di lavoro.
    • Creare un progetto con controllo di versione per creare una pipeline con un nuovo progetto di bundle di risorse di Databricks o per aggiungere la pipeline a un bundle esistente.

    È possibile avere file di codice sorgente SQL e Python nella pipeline ETL. Quando si crea una nuova pipeline e si sceglie un linguaggio per il codice di esempio, il linguaggio è solo per il codice di esempio incluso nella pipeline per impostazione predefinita.

  5. Quando si effettua la selezione, si viene reindirizzati alla pipeline appena creata.

    La pipeline ETL viene creata con le impostazioni predefinite seguenti:

    Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere Attività delle pipeline per i compiti.

    È possibile modificare queste impostazioni dalla barra degli strumenti della pipeline.

In alternativa, è possibile creare una pipeline ETL dal browser dell'area di lavoro:

  1. Fare clic su Area di lavoro nel pannello a sinistra.
  2. Selezionare qualsiasi cartella, incluse le cartelle Git.
  3. Fare clic su Crea nell'angolo in alto a destra e fare clic su Pipeline ETL.

È anche possibile creare una pipeline ETL dalla pagina processi e pipeline:

  1. Nell'area di lavoro fare clic sull'icona Flussi di lavoro.Processi e pipeline nella barra laterale.
  2. In Nuovo fare clic su Pipeline ETL.

Opzioni di configurazione del calcolo

Databricks consiglia di usare sempre la scalabilità automatica avanzata. I valori predefiniti per altre configurazioni di calcolo funzionano bene per molte pipeline.

Le pipeline serverless rimuovono le opzioni di configurazione di calcolo. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline serverless.

Usare le impostazioni seguenti per personalizzare le configurazioni di calcolo:

  • Usare i tag cluster per monitorare i costi associati alle pipeline. Vedere Configurare i tag di calcolo.
  • Configurare tipi di istanze per specificare il tipo di macchine virtuali utilizzate per eseguire la tua pipeline. Vedi Seleziona i tipi di istanza per eseguire una pipeline.
    • Selezionare un tipo di lavoro ottimizzato per i carichi di lavoro configurati nella pipeline.
    • Facoltativamente, è possibile selezionare un tipo di driver diverso dal tipo di lavoro. Ciò può essere utile per ridurre i costi nelle pipeline con ampi tipi di lavoratori e un basso utilizzo del calcolo del driver o per scegliere un tipo di driver più grande per evitare problemi di esaurimento della memoria nei carichi di lavoro con numerosi piccoli lavoratori.

Impostare l'utente run-as

L'utente Run-as consente di modificare l'identità usata da una pipeline per l'esecuzione e la proprietà delle tabelle create o aggiornate. Ciò è utile nelle situazioni in cui l'utente originale che ha creato la pipeline è stato disattivato, ad esempio se ha lasciato l'azienda. In questi casi, la pipeline può smettere di funzionare e le tabelle pubblicate possono diventare inaccessibili ad altri utenti. Aggiornando la pipeline per l'esecuzione come identità diversa, ad esempio un'entità servizio, e riassegnando la proprietà delle tabelle pubblicate, è possibile ripristinare l'accesso e assicurarsi che la pipeline continui a funzionare. L'esecuzione di pipeline come entità servizio è considerata una procedura consigliata perché non sono associate a singoli utenti, rendendole più sicure, stabili e affidabili per i carichi di lavoro automatizzati.

Autorizzazioni necessarie

Per l'utente che apporta la modifica:

  • CAN_MANAGE autorizzazioni per la pipeline
  • CAN_USE ruolo nell'entità servizio (se si imposta run-as su un'entità servizio)

Per l'utente o l'entità servizio run-as:

  • Accesso all'area di lavoro:

    • Autorizzazione di accesso all'area di lavoro per operare all'interno dell'area di lavoro
    • Può usare l'autorizzazione per i criteri del cluster usati dalla pipeline
    • Autorizzazione di creazione del calcolo nell'area di lavoro
  • Accesso al codice sorgente:

    • Autorizzazione di lettura per tutti i notebook inclusi nel codice sorgente della pipeline
    • È possibile leggere l'autorizzazione per i file dell'area di lavoro se la pipeline li usa
  • Autorizzazioni del catalogo Unity (per le pipeline che usano Unity Catalog):

    • USE CATALOG nel catalogo di destinazione
    • USE SCHEMA e CREATE TABLE nello schema di destinazione
    • MODIFY autorizzazione per le tabelle esistenti aggiornate dalla pipeline
    • CREATE SCHEMA autorizzazione se la pipeline crea nuovi schemi
  • Autorizzazioni metastore Hive legacy (per le pipeline che usano il metastore Hive):

    • SELECT e MODIFY autorizzazioni per database e tabelle di destinazione
  • Accesso aggiuntivo all'archiviazione cloud (se applicabile):

    • Autorizzazioni per la lettura da percorsi di archiviazione di origine
    • Autorizzazioni per la scrittura nei percorsi di archiviazione di destinazione

Come impostare l'utente run-as

È possibile impostare l'utente run-as tramite le impostazioni della pipeline dalla pagina di monitoraggio della pipeline o dall'editor della pipeline. Per modificare l'utente dalla pagina di monitoraggio della pipeline:

  1. Fare clic su Processi e pipeline per aprire l'elenco delle pipeline e selezionare il nome della pipeline da modificare.
  2. Nella pagina di monitoraggio pipline fare clic su Impostazioni.
  3. Nella barra laterale Impostazioni pipeline fare clic sull'icona a forma di matita. Modificare accanto a Esegui come.
  4. Nel widget di modifica selezionare una delle opzioni seguenti:
    • Il proprio account utente
    • Entità servizio per cui si dispone dell'autorizzazione CAN_USE
  5. Fare clic su Salva per applicare le modifiche.

Quando l'utente run-as è stato aggiornato correttamente:

  • L'identità della pipeline cambia per usare il nuovo utente o l'entità servizio per tutte le esecuzioni future
  • Nelle pipeline del catalogo Unity il proprietario delle tabelle pubblicate dalla pipeline viene aggiornato in modo che corrisponda alla nuova identità run-as
  • Gli aggiornamenti futuri della pipeline useranno le autorizzazioni e le credenziali della nuova identità run-as
  • Le pipeline continue vengono riavviate automaticamente con la nuova identità. Le pipeline attivate non vengono riavviate automaticamente e la modifica run-as può interrompere un aggiornamento attivo

Annotazioni

Se l'aggiornamento di run-as ha esito negativo, viene visualizzato un messaggio di errore che spiega il motivo dell'errore. I problemi comuni includono autorizzazioni insufficienti per l'entità servizio.

Altre considerazioni sulla configurazione

Per le pipeline sono disponibili anche le opzioni di configurazione seguenti:

Scegliere un'edizione del prodotto

Selezionare l'edizione del prodotto Lakeflow Spark Declarative Pipelines con le funzionalità migliori per i requisiti della pipeline. Sono disponibili le seguenti edizioni del prodotto:

  • Core per eseguire flussi di dati in streaming. Selezionare l'edizione Core se la pipeline non richiede funzionalità avanzate, come Change Data Capture (CDC) o le aspettative delle pipeline dichiarative di Lakeflow Spark.
  • Pro per eseguire i carichi di lavoro di streaming di inserimento e di Change Data Capture (CDC). L'edizione Pro del prodotto supporta tutte le funzionalità Core, oltre al supporto per i carichi di lavoro che richiedono l'aggiornamento delle tabelle in base alle modifiche apportate ai dati di origine.
  • Advanced per eseguire carichi di lavoro di ingestione di streaming, carichi di lavoro CDC e carichi di lavoro con requisiti di aspettative. L'edizione Advanced del prodotto supporta le funzionalità delle edizioni Core e Pro e include vincoli di qualità dei dati con le aspettative delle pipeline dichiarative di Lakeflow Spark.

È possibile selezionare l'edizione del prodotto quando si crea o si modifica una pipeline. È possibile scegliere un'edizione diversa per ogni pipeline. Vedere la pagina del prodotto Lakeflow Spark Declarative Pipelines.

Nota: se la pipeline include funzionalità non supportate dall'edizione del prodotto selezionata, ad esempio le aspettative, verrà visualizzato un messaggio di errore che ne spiega il motivo. È quindi possibile modificare la pipeline per selezionare l'edizione appropriata.

Configurare il codice sorgente

È possibile usare il browser asset nell'editor di Lakeflow Pipelines per configurare il codice sorgente che definisce la pipeline. Il codice sorgente della pipeline è definito negli script SQL o Python archiviati nei file dell'area di lavoro. Quando si crea o si modifica la pipeline, è possibile aggiungere uno o più file. Per impostazione predefinita, il codice sorgente della pipeline si trova nella transformations cartella nella cartella radice della pipeline.

Poiché Le pipeline dichiarative di Lakeflow Spark analizzano automaticamente le dipendenze dei set di dati per costruire il grafico di elaborazione per la pipeline, è possibile aggiungere asset di codice sorgente in qualsiasi ordine.

Per altre informazioni sull'uso dell'editor di Pipelines lakeflow, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di Pipelines lakeflow.

Gestire le dipendenze esterne per le pipeline che usano Python

Le pipeline supportano l'uso di dipendenze esterne nelle pipeline, ad esempio pacchetti e librerie Python. Per informazioni sulle opzioni e le raccomandazioni per l'uso delle dipendenze, vedere Gestione delle dipendenze Python per le pipeline.

Usare i moduli Python archiviati nell'area di lavoro di Azure Databricks

Oltre a implementare il codice Python nei file di codice sorgente della pipeline, è possibile usare Cartelle Git di Databricks o i file dell'area di lavoro per archiviare il codice come moduli Python. L'archiviazione del codice come moduli Python è particolarmente utile quando si hanno funzionalità comuni da usare in più pipeline o notebook nella stessa pipeline. Per informazioni su come usare i moduli Python con le pipeline, vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.