Condividi tramite


Sviluppo iterativo e debug con le pipeline di Azure Data Factory e Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Azure Data Factory e Synapse Analytics supportano lo sviluppo iterativo e il debug delle pipeline. Queste funzionalità consentono di testare le modifiche prima di creare una richiesta pull o pubblicarle nel servizio.

Per un'introduzione di otto minuti e una dimostrazione di questa funzionalità, guardare il video seguente:

Debug di una pipeline

Quando lavori con il canvas della pipeline, è possibile testare le attività usando la capacità di Debug. Quando si esegue il test, non è necessario pubblicare le modifiche nel servizio prima di selezionare Debug. Questa funzionalità è utile negli scenari in cui si vuole assicurarsi che le modifiche funzionino come previsto prima di aggiornare il flusso di lavoro.

Funzionalità di debug nell'ambiente di lavoro della pipeline

Quando la pipeline è in esecuzione, è possibile visualizzare i risultati di ogni attività nella scheda Output dell'area di disegno della pipeline.

Visualizzare i risultati dell'esecuzione dei test nella finestra Output del canvas della pipeline.

Finestra di Output del canvas della pipeline

Quando un'esecuzione dei test ha esito positivo, aggiungere altre attività alla pipeline e continuare il debug in modo iterativo. È anche possibile annullare un'esecuzione dei test in corso.

Importante

Selezionando Debug la pipeline viene effettivamente eseguita. Ad esempio, se la pipeline contiene attività di copia, l'esecuzione del test copia i dati dall'origine alla destinazione. Di conseguenza, durante il debug è consigliabile usare cartelle di test nelle attività di copia e in altre attività. Dopo aver eseguito il debug della pipeline, passare alle cartelle che desideri utilizzare nelle operazioni normali.

Impostazione dei punti di interruzione

Il servizio consente di eseguire il debug di una pipeline fino a raggiungere una determinata attività nell'area di disegno della pipeline. Inserire un punto di interruzione nell'attività che si desidera testare e selezionare Debug. Il servizio garantisce che il test venga eseguito solo fino all'attività del punto di interruzione nell'area di disegno della pipeline. Questa funzionalità Debug Until è utile quando non vuoi testare l'intera pipeline, ma solo un subset di azioni specifiche nella pipeline.

Punti di interruzione nel canvas della pipeline

Per impostare un punto di interruzione, selezionare un elemento nel canvas della pipeline. L'opzione Debug fino a viene visualizzata sotto forma di cerchio rosso vuoto nell'angolo in alto a destra dell'elemento.

Prima dell'impostazione di un punto di interruzione sull'elemento selezionato

Dopo avere selezionato l'opzione Debug fino a, questa diventa un cerchio rosso pieno per indicare che il punto di interruzione è abilitato.

Dopo l'impostazione di un punto di interruzione sull'elemento selezionato

Esegue il monitoraggio delle esecuzioni di debug

Quando si esegue un'esecuzione di debug della pipeline, i risultati verranno visualizzati nella finestra Output dell'area di disegno della pipeline. La scheda di output conterrà solo l'esecuzione più recente che si è verificata durante la sessione del browser corrente.

Finestra di output dell'area di lavoro della pipeline

Per visualizzare una visualizzazione cronologica delle esecuzioni di debug o visualizzare un elenco di tutte le esecuzioni di debug attive, è possibile passare all'esperienza monitoraggio .

Nota

Il servizio mantiene la cronologia di esecuzione del debug solo per 15 giorni.

Debug dei flussi di dati di mapping

I flussi di dati di mapping consentono di creare una logica di trasformazione dei dati priva di codice che viene eseguita su larga scala. Durante la compilazione della logica, è possibile attivare una sessione di debug per usare in modo interattivo i dati con un cluster Spark attivo. Per altre informazioni, leggere informazioni sulla modalità di debug del flusso di dati di mapping.

È possibile monitorare le sessioni di debug dei flussi di dati attivi nell'esperienza Monitoraggio.

Visualizzare le sessioni di debug dei flussi di dati

L'anteprima dei dati nella finestra di progettazione del flusso di dati e nel debug della pipeline dei flussi di dati è progettata per funzionare al meglio con piccoli esempi di dati. Tuttavia, se è necessario testare la logica in una pipeline o in un flusso di dati su grandi quantità di dati, aumentare le dimensioni del runtime di integrazione di Azure usato nella sessione di debug con più core e un minimo di calcolo per utilizzo generico.

Debug di una pipeline con un'attività del flusso di dati

Quando si esegue una pipeline di debug eseguita con un flusso di dati, sono disponibili due opzioni per il calcolo da usare. È possibile usare un cluster di debug esistente o creare un nuovo cluster just-in-time per i flussi di dati.

L'uso di una sessione di debug esistente ridurrà notevolmente il tempo di avvio del flusso di dati perché il cluster è già in esecuzione, ma non è consigliabile per carichi di lavoro complessi o paralleli perché potrebbero non riuscire quando vengono eseguiti più processi contemporaneamente.

L'uso del runtime di attività creerà un nuovo cluster usando le impostazioni specificate nel runtime di integrazione di ogni attività del flusso di dati. In questo modo ogni processo può essere isolato e deve essere usato per carichi di lavoro complessi o test delle prestazioni. È anche possibile controllare la durata (TTL) nel runtime di integrazione di Azure in modo che le risorse del cluster usate per il debug siano ancora disponibili per quel periodo di tempo per gestire richieste di processo aggiuntive.

Nota

Se si dispone di una pipeline con flussi di dati che vengono eseguiti in parallelo o che devono essere testati con set di dati di grandi dimensioni, scegliere "Usa Runtime Attività" in modo che il servizio possa usare il runtime di integrazione selezionato nell'attività di flusso di dati. In questo modo i flussi di dati possono essere eseguiti in più cluster e possono supportare le esecuzioni parallele del flusso di dati.

Esecuzione di una pipeline con un flusso di dati

Dopo aver testato le modifiche, promuoverle ad ambienti più elevati usando l'integrazione e la distribuzione continue.