Procedure consigliate per Azure Batch

Questo articolo illustra le procedure consigliate e i suggerimenti utili per l'uso efficiente del servizio Azure Batch. Questi suggerimenti permettono di migliorare le prestazioni ed evitare problemi di progettazione nelle soluzioni Azure Batch.

Suggerimento

Per indicazioni sulla sicurezza in Azure Batch, vedere Procedure consigliate per la sicurezza e la conformità di Azure Batch.

Pool

I pool sono le risorse di calcolo per eseguire processi nel servizio Batch. Le sezioni seguenti includono raccomandazioni per l'uso di pool di Batch.

Configurazione e denominazione del pool

Modalità di allocazione pool: quando si crea un account Batch, è possibile scegliere tra due modalità di allocazione pool: servizio Batch o sottoscrizione utente. Nella maggior parte dei casi si userà la modalità predefinita del servizio Batch, in cui i pool vengono allocati dietro le quinte nelle sottoscrizioni gestite da Batch. Nella modalità sottoscrizione utente alternativa, le macchine virtuali e le altre risorse di Batch vengono create direttamente nella sottoscrizione in fase di creazione di un pool. Gli account di sottoscrizione utente vengono usati principalmente per rendere possibile un sottoinsieme di scenari piccolo, ma importante. Per altre informazioni, vedere la configurazione per la modalità sottoscrizione utente.
classic o simplified modalità di comunicazione dei nodi: è possibile configurare i pool in una di due modalità di comunicazione dei nodi, classica o semplificata. Nella modalità di comunicazione dei nodi classica, il servizio Batch avvia la comunicazione con i nodi di calcolo, i quali devono comunicare con l'archiviazione di Azure. Nella modalità di comunicazione dei nodi semplificata, i nodi di calcolo avviano la comunicazione con il servizio Batch. A causa dell'ambito ridotto delle connessioni in ingresso/in uscita necessario e del fatto che l'accesso in uscita dell'archiviazione di Azure non sia necessario per l'operazione di base, è consigliabile usare la modalità di comunicazione dei nodi semplificata. Alcuni miglioramenti futuri al servizio Batch richiederanno anche la modalità di comunicazione dei nodi semplificata. La modalità di comunicazione dei nodi classica verrà ritirata il 31 marzo 2026.
Considerazioni sui tempi di esecuzione di processi e attività: se i processi sono composti principalmente da attività a esecuzione breve e il numero delle attività totale è ridotto e il tempo di esecuzione previsto complessivo del processo non è lungo, non allocare un nuovo pool per ogni processo. Il tempo di allocazione dei nodi ridurrà il tempo di esecuzione del processo.
Più nodi di calcolo: i singoli nodi non sono sempre disponibili. Anche se non comuni, gli errori dell'hardware, gli aggiornamenti del sistema operativo e una serie di altri problemi possono portare offline i singoli nodi. Se il carico di lavoro di Batch richiede un avanzamento deterministico e garantito, è consigliabile allocare pool con più nodi.
Immagini con date di fine vita in sospeso: è vivamente consigliabile evitare immagini con date di fine vita del supporto Batch imminenti. Queste date non possono essere scoperte tramite l'API ListSupportedImages, PowerShell o l'interfaccia della riga di comando di Azure. È responsabilità dell'utente aggiornare periodicamente la visualizzazione delle date di fine vita pertinenti ai pool ed eseguire la migrazione dei carichi di lavoro prima di arrivare a questa data. Se si usa un'immagine personalizzata con un agente del nodo specificato, assicurarsi di seguire le date di fine vita del servizio Batch per l'immagine con cui l'immagine personalizzata è allineata o da cui è derivata. Un'immagine senza una data batchSupportEndOfLife specificata indica che tale data non è stata ancora determinata dal servizio Batch. L'assenza di una data non indica che la rispettiva immagine sarà supportata per un periodo illimitato. È possibile aggiungere o aggiornare una data di fine vita in futuro in qualsiasi momento.
SKU di macchine virtuali con date di fine vita imminenti: come per le immagini di macchine virtuali, gli SKU o le famiglie di macchine virtuali possono raggiungere la fine del supporto del servizio Batch. Queste date non possono essere scoperte tramite l'API ListSupportedVirtualMachineSkus, PowerShell o l'interfaccia della riga di comando di Azure. Pianificare la migrazione del carico di lavoro a uno SKU di macchine virtuali non giunte al fine vita creando un nuovo pool con uno SKU di macchine virtuali supportato appropriato. L'assenza di una data batchSupportEndOfLife associata per uno SKU di macchine virtuali non indica che quello SKU di macchine virtuali specifico sarà supportato per un periodo illimitato. È possibile aggiungere o aggiornare una data di fine vita in futuro in qualsiasi momento.
Nomi di risorse univoci: le risorse del servizio Batch (processi, pool e così via) vanno e vengono nel tempo. Ad esempio, è possibile creare un pool il lunedì, eliminarlo il martedì e quindi crearne un altro simile il giovedì. A ogni nuova risorsa creata è necessario assegnare un nome univoco che non è mai stato usato prima. È possibile creare univocità usando un GUID (come nome di risorsa completo o come parte di esso) o incorporando la data e l'ora di creazione della risorsa nel nome della stessa. Batch supporta DisplayName, che può assegnare a una risorsa un nome più leggibile, anche se l'ID risorsa effettivo non è così intuitivo. L'uso di nomi univoci consente di distinguere più facilmente la risorsa specifica a cui fanno riferimento log e metriche. Rimuove anche l'ambiguità se è necessario presentare un caso di supporto per una risorsa.
Continuità durante la manutenzione e l'errore del pool: è consigliabile che i processi usino i pool in modo dinamico. Se i processi usano lo stesso pool per tutte le operazioni, è possibile che non vengano eseguiti se si verificano problemi in tale pool. Questo principio è particolarmente importante per i carichi di lavoro dipendenti dal tempo. Ad esempio, selezionare o creare un pool in modo dinamico quando si pianifica ogni processo oppure ignorare in qualche modo il nome del pool in modo che sia possibile evitare un pool non integro.
Continuità aziendale durante la manutenzione e l'errore del pool: esistono molti motivi per cui un pool potrebbe non crescere alle dimensioni desiderate, ad esempio errori interni o vincoli di capacità. Assicurarsi di poter ridestinare i processi in un pool diverso (possibilmente con dimensioni di macchine virtuali diverse usando UpdateJob), se necessario. Evitare di affidarsi a un ID pool statico con l'aspettativa che non verrà mai eliminato e modificato.

Sicurezza del pool

Limite di isolamento

Se lo scenario richiede l'isolamento dei processi e delle attività gli uni dagli altri, inserirli in pool separati. Un pool rappresenta il limite di isolamento di sicurezza in Batch e, per impostazione predefinita, due pool non sono visibili o in grado di comunicare tra loro. Evitare di usare account Batch separati come mezzo di isolamento della sicurezza, a meno che l'ambiente più ampio da cui opera l'account Batch non richieda l'isolamento.

Se necessario, è necessario applicare il controllo di accesso appropriato all'account Batch e alle API per impedire l'accesso a tutti i pool nell'account Batch. È consigliabile disabilitare l'accesso con chiave condivisa e consentire solo l'autenticazione basata su Entra per abilitare il controllo degli accessi in base al ruolo.

Aggiornamenti dell'agente del nodo Batch

Gli agenti del nodo Batch non vengono aggiornati automaticamente per i pool con nodi di calcolo diversi da zero. Per assicurarsi che i pool di Batch ricevano le correzioni di sicurezza e gli aggiornamenti più recenti per l'agente del nodo Batch, è necessario ridimensionare il pool in zero nodi di calcolo o ricrearlo. È consigliabile monitorare le note sulla versione dell'agente del nodo Batch per comprendere le modifiche apportate alle nuove versioni dell'agente del nodo Batch. Controllare regolarmente la disponibilità di aggiornamenti al momento del rilascio per poter pianificare gli aggiornamenti alla versione più recente dell'agente.

Prima di ricreare o ridimensionare il pool, è necessario scaricare i log dell'agente del nodo a scopo di debug se si verificano problemi con il pool Batch o con i nodi di calcolo. Questo processo è illustrato più avanti nella sezione Nodi.

Note

Per indicazioni generali sulla sicurezza in Azure Batch, vedere Procedure consigliate per la sicurezza e la conformità di Azure Batch.

Aggiornamenti del sistema operativo

È consigliabile aggiornare l'immagine della macchina virtuale selezionata per un pool di Batch con gli aggiornamenti della sicurezza forniti dall'autore più recenti. Alcune immagini possono eseguire aggiornamenti automatici dei pacchetti all'avvio (o poco dopo), che potrebbero interferire con determinate azioni indirizzate dall'utente, ad esempio il recupero degli aggiornamenti del repository dei pacchetti (ad esempio apt update) o l'installazione di pacchetti durante azioni come StartTask.

È consigliabile abilitare l'aggiornamento automatico del sistema operativo per i pool di Batch, che consente all'infrastruttura di Azure sottostante di coordinare gli aggiornamenti nel pool. Questa opzione può essere configurata in modo che non sia irreversibile per l'esecuzione dell'attività. L'aggiornamento automatico del sistema operativo non supporta tutti i sistemi operativi supportati da Batch. Per altre informazioni, vedere la Matrice di supporto per l'aggiornamento automatico del sistema operativo dei set di scalabilità di macchine virtuali. Per i sistemi operativi Windows, assicurarsi di non abilitare la proprietà virtualMachineConfiguration.windowsConfiguration.enableAutomaticUpdates quando si usa l'aggiornamento automatico del sistema operativo nel pool di Batch.

Azure Batch non verifica né garantisce che le immagini consentite per l'uso con il servizio abbiano gli aggiornamenti della sicurezza più recenti. Gli aggiornamenti alle immagini sono di competenza dell'autore dell'immagine e non di Azure Batch. Per determinate immagini pubblicate in microsoft-azure-batch, non vi è alcuna garanzia che queste immagini vengano mantenute aggiornate con l'immagine derivata upstream.

Durata e fatturazione del pool

La durata del pool può variare a seconda del metodo di allocazione e delle opzioni applicate alla relativa configurazione. I pool possono avere una durata arbitraria e un numero variabile di nodi di calcolo in qualsiasi momento. È responsabilità dell'utente gestire i nodi di calcolo nel pool in modo esplicito o tramite le funzionalità fornite dal servizio (scalabilità automatica o pool automatico).

Ricreazione pool: evitare di eliminare e ricreare pool su base giornaliera. Creare invece un nuovo pool e aggiornare i processi esistenti in modo che puntino al nuovo pool. Una volta spostate tutte le attività nel nuovo pool, eliminare quello precedente.
Efficienza del pool e fatturazione: Batch non comporta costi aggiuntivi. Tuttavia, si devono sostenere costi per le risorse di Azure usate, ad esempio calcolo, archiviazione, rete e qualsiasi altra risorsa che potrebbe essere necessaria per il carico di lavoro del servizio Batch. Si riceve un addebito per ogni nodo di calcolo del pool, indipendentemente dallo stato in cui si trova. Per altre informazioni, vedere Analisi dei costi e budget per Azure Batch.
Dischi temporanei del sistema operativo: i pool di configurazione delle macchine virtuali possono usare dischi temporanei del sistema operativo, che creano il disco del sistema operativo nella cache della macchina virtuale o unità SSD temporanee, per evitare costi aggiuntivi associati ai dischi gestiti.

Errori di allocazione del pool

Gli errori di allocazione del pool possono verificarsi in qualsiasi momento durante la prima allocazione o con i successivi ridimensionamenti. Questi errori possono essere dovuti a un esaurimento temporaneo della capacità in un'area o a errori in altri servizi di Azure a cui Batch fa affidamento. La quota core non è una garanzia, ma piuttosto un limite.

Tempo di inattività non pianificato

È possibile che i pool di Batch riscontrino eventi di tempi di inattività in Azure. Tenere conto che possono verificarsi problemi e che è necessario sviluppare il flusso di lavoro per essere resilienti alle riesecuzioni. Se si verificano errori nei nodi, Batch tenta automaticamente di ripristinare questi nodi di calcolo per conto dell'utente. Questo ripristino può attivare la riprogrammazione di eventuali attività in esecuzione sul nodo ripristinato o su un nodo disponibile diverso. Per altre informazioni sulle attività interrotte, vedere Progettazione per la ripetizione di tentativi.

Pool di immagini personalizzati

Quando si crea un pool in Azure Batch usando la configurazione della macchina virtuale, specificare l'immagine di macchina virtuale (VM) che fornisce la configurazione del sistema operativo per ogni nodo di calcolo nel pool. È possibile creare il pool con un'immagine di Azure Marketplace supportata oppure creare un'immagine personalizzata con un'immagine della Raccolta di calcolo di Azure. Sebbene sia anche possibile usare un'immagine gestita per creare un pool di immagini personalizzato, è consigliabile creare immagini personalizzate usando la Raccolta di calcolo di Azure, quando possibile. L'uso della Raccolta di calcolo di Azure consente di effettuare il provisioning di pool più velocemente, di ridimensionare quantità maggiori di macchine virtuali e di migliorare l'affidabilità durante il provisioning delle macchine virtuali.

Immagini di terze parti

È possibile creare pool usando immagini di terze parti pubblicate in Azure Marketplace. Con gli account Batch in modalità sottoscrizione utente, è possibile che venga visualizzato l'errore "Allocazione non riuscita a causa del controllo di idoneità per l'acquisto sul marketplace" quando si crea un pool con determinate immagini di terze parti. Per risolvere l'errore, accettare le condizioni impostate dall'autore dell'immagine. A tale scopo, è possibile usare Azure PowerShell o l'interfaccia della riga di comando di Azure.

Pool di contenitori

Quando si crea un pool di Batch con una rete virtuale, potrebbero manifestarsi effetti collaterali di interazione tra la rete virtuale specificata e il bridge Docker predefinito. Docker, per impostazione predefinita, creerà un bridge di rete con una specifica della subnet di 172.17.0.0/16. Assicurarsi che non siano presenti intervalli IP in conflitto tra il bridge di rete Docker e la rete virtuale.

Docker Hub limita il numero di pull di immagini. Assicurarsi che il carico di lavoro non superi i limiti di frequenza pubblicati per le immagini basate su Docker Hub. È consigliabile usare Registro Azure Container direttamente o utilizzare la cache degli artefatti nel record di controllo di accesso.

Dipendenza dall'area di Azure

Non è consigliabile basarsi su una singola area di Azure se il carico di lavoro è di produzione o sensibile al fattore tempo. Anche se rari, esistono problemi che possono influire su un'intera area. Se ad esempio l'elaborazione deve essere avviata a un'ora specifica, è consigliabile aumentare il pool nell'area primaria con molto anticipo rispetto all'ora di inizio. Se l'aumento del pool non riesce in quell'area, è possibile eseguirne il fallback in una o più aree di backup.

I pool distribuiti tra più account in aree diverse forniscono un backup pronto e facilmente accessibile se si verificano problemi in un altro pool. Per altre informazioni, vedere Progettare l'applicazione per la disponibilità elevata.

Processi

Un processo è un contenitore progettato per includere centinaia, migliaia o anche milioni di attività. Seguire queste linee guida durante la creazione di processi.

Meno processi, più attività

L'uso di un processo per eseguire una singola attività è inefficiente. Ad esempio, è più efficiente usare un singolo processo contenente 1000 attività invece di creare 100 processi che ne contengono 10 ognuno. Se si sono usati 1.000 processi, ognuno con una singola attività, è l'approccio meno efficiente, più lento e più costoso da intraprendere.

Evitare di progettare una soluzione Batch che richieda migliaia di processi attivi contemporaneamente. Non è prevista alcuna quota per le attività, quindi l'esecuzione di molte attività nel minor numero possibile di processi comporta un uso efficiente delle quote dei processi e delle pianificazioni processi.

Durata dei processi

Un processo di Batch ha una durata indefinita fino a quando non viene eliminato dal sistema. Il relativo stato indica se può accettare o meno la pianificazione di altre attività.

Un processo non passa automaticamente allo stato completato a meno che non venga terminato in modo esplicito. Questa azione può essere attivata automaticamente tramite la proprietà onAllTasksComplete o maxWallClockTime.

Esiste una quota dei processi e delle pianificazioni processi attivi predefinita. I processi e le pianificazioni processi nello stato completato non vengono conteggiati ai fini di questa quota.

Eliminare i processi quando non sono più necessari, anche se sono nello stato completato. Anche se i processi completati non vengono conteggiati ai fini della quota processi attivi, è utile pulire periodicamente i processi completati. Ad esempio, l'elenco dei progetti sarà più efficiente se il numero totale di processi è più piccolo (anche se i filtri appropriati sono applicati alla richiesta).

Attività

Le attività sono singole unità di lavoro comprensive di un processo. Le attività vengono inviate dall'utente e pianificate da Batch nei nodi di calcolo. Le sezioni seguenti forniscono suggerimenti per progettare le attività per gestire i problemi e ottenere prestazioni ottimali.

Salvare i dati delle attività

I nodi di calcolo sono per loro natura temporanei. Le funzionalità del servizio Batch, ad esempio pool automatico e scalabilità automatica, possono favorire la scomparsa dei nodi. Quando i nodi lasciano un pool (a causa di un ridimensionamento o di un'eliminazione del pool), vengono eliminati anche tutti i file al loro interno. A causa di questo comportamento, l'output di un'attività deve essere spostato dal nodo in cui è in esecuzione in un archivio permanente prima del completamento. Analogamente, se un'attività non riesce, è necessario spostare i log necessari per diagnosticare l'errore in un archivio permanente.

Batch offre supporto integrato per l'archiviazione di Azure per il caricamento dei dati tramite OutputFiles, e con vari file system condivisi. In alternativa, è possibile eseguire manualmente il caricamento delle attività.

Gestire la durata delle attività

Eliminare le attività quando non sono più necessarie o impostare un vincolo di attività retentionTime. Se retentionTime è impostato, Batch pulisce automaticamente lo spazio su disco usato dall'attività alla scadenza di retentionTime.

Con l'eliminazione delle attività, si realizzano due obiettivi:

Ci si assicura che non si verifichi un accumulo di attività nel processo. Questa azione evita le difficoltà nel trovare l'attività a cui si è interessati perché sarà necessario filtrare le attività completate.
Pulisce i dati dell'attività corrispondenti nel nodo, purché retentionTime non sia già stato raggiunto). Con questa azione si evita che i nodi si riempiano di dati di attività ed esauriscano lo spazio.

Note

Per le attività appena inviate a Batch, la chiamata all'API DeleteTask richiede fino a 10 minuti. Prima che diventi effettiva, potrebbe non essere possibile pianificare altre attività. Questo perché l'Utilità di pianificazione di Batch tenta ancora di pianificare le attività appena eliminate. Se si voleva eliminare un'attività poco dopo averla inviata, terminare l'attività (poiché questa richiesta diventerà effettiva immediatamente). Eliminare l'attività 10 minuti dopo.

Inviare un numero elevato di attività nella raccolta

Le attività possono essere inviate singolarmente o in raccolte. Inviare le attività in raccolte che ne contengono fino a 100 alla volta durante l'invio in blocco per ridurre il sovraccarico e i tempi della procedura.

Impostare il numero massimo di attività per nodo nel modo appropriato

Batch supporta la sovrasottoscrizione di attività nei nodi, ossia l'esecuzione di un numero di attività maggiore del numero di core di un nodo. È necessario assicurarsi che le attività siano ridimensionate correttamente per i nodi nel pool. È ad esempio possibile che si verifichi una riduzione delle prestazioni se si provano a pianificare otto attività, ognuna delle quali utilizza il 25% della CPU in un nodo (in un pool con taskSlotsPerNode = 8).

Progettare per la ripetizione di tentativi e di esecuzioni

Batch può provare automaticamente a ripetere le attività. Esistono due tipi di tentativi: controllati dall'utente e interni. I tentativi controllati dall'utente sono specificati dal valore di maxTaskRetryCount dell'attività. Quando un programma specificato nell'attività termina con un codice di uscita diverso da zero, l'attività viene riprovata fino al valore maxTaskRetryCount.

In rari casi, un'attività può essere riprovata internamente a causa di errori del nodo di calcolo, ad esempio se non è possibile aggiornare lo stato interno o si verifica un problema nel nodo durante l'esecuzione dell'attività. L'attività verrà riprovata nello stesso nodo di calcolo, se possibile, fino a un limite interno prima che venga abbandonata e rinviata per la ripianificazione di Batch, possibilmente in un nodo di calcolo diverso.

Non esistono differenze di progettazione per le attività eseguite in nodi dedicati o nodi spot. Che un'attività venga interrotta durante l'esecuzione in un nodo spot o a causa di un errore in un nodo dedicato, è possibile mitigare gli effetti di entrambe le situazioni progettando l'attività per la tolleranza degli errori.

Creare attività permanenti

Le attività dovrebbero essere progettate per tollerare gli errori e supportare la ripetizione di tentativi. Questo principio è particolarmente importante per le attività a esecuzione prolungata. Assicurarsi che le attività generino lo stesso risultato singolo, anche se vengono eseguite più di una volta. Un modo per ottenere questo risultato è creare attività finalizzate a un obiettivo. Un altro modo consiste nel verificare che le attività siano idempotenti (le attività avranno lo stesso risultato indipendentemente dal numero di volte in cui vengono eseguite).

Un esempio comune è un'attività per la copia di file in un nodo di calcolo. Sarebbe possibile ad esempio creare un'attività che copia tutti i file specificati ogni volta che viene eseguita, ma questo approccio, pur essendo semplice, non è efficiente e non prevede la tolleranza degli errori. Creare invece un'attività che assicuri che i file si trovino nel nodo di calcolo, ossia un'attività che non ricopi i file già presenti. In questo modo, l'attività riprenderà dal punto in cui è stata interrotta.

Evitare tempi di esecuzione brevi

Le attività che vengono eseguite solo per uno-due secondi non sono ideali. Provare a completare una notevole quantità di operazioni in una singola attività, da un minimo di 10 secondi fino a diverse ore o giorni. Se ogni attività è in esecuzione per almeno un minuto, il sovraccarico della pianificazione è minimo rispetto al tempo di calcolo complessivo.

Usare l'ambito del pool per attività brevi nei nodi Windows

Quando si pianifica un'attività nei nodi di Batch, è possibile scegliere se eseguirla con ambito attività o ambito pool. Se l'attività verrà eseguita solo per un breve periodo di tempo, l'ambito attività può risultare inefficiente a causa delle risorse necessarie per creare l'account utente automatico per quell'attività. Per una maggiore efficienza, è consigliabile impostare queste attività sull'ambito pool. Per altre informazioni, vedere Eseguire un'attività come utente automatico con ambito pool.

Nodi

Un nodo di calcolo è una macchina virtuale (VM) di Azure o del servizio cloud dedicata all'elaborazione di una parte del carico di lavoro dell'applicazione. Per l'uso dei nodi, seguire queste linee guida.

Avviare le attività: durata e idempotenza

Come con altre attività, l'attività di avvio del nodo deve essere idempotente. Le attività di avvio vengono rieseguite al riavvio del nodo di calcolo o al riavvio dell'agente del servizio Batch. Un'attività idempotente è semplicemente quella che produce un risultato coerente quando viene eseguita più volte.

Le attività di avvio non devono essere a esecuzione prolungata o associate alla durata del nodo di calcolo. Se è necessario avviare programmi che sono servizi o di natura simile a servizi, creare un'attività di avvio che consenta l'avvio e la gestione di questi programmi da parte di strutture del sistema operativo, ad esempio systemd in Linux o Servizi Windows. L'attività di avvio deve comunque essere costruita come idempotente in modo che l'esecuzione successiva dell'attività di avvio venga gestita correttamente se questi programmi sono stati installati in precedenza come servizi.

Suggerimento

Quando Batch riesegue l'attività di avvio, tenterà di eliminare la directory dell'attività di avvio e la creerà di nuovo. Se Batch non riesce a ricreare la directory dell'attività di avvio, il nodo di calcolo non riuscirà ad avviare l'attività di avvio.

Questi servizi non devono applicare blocchi sui file nelle directory gestite da Batch nel nodo, in caso contrario Batch non sarà in grado di eliminare quelle directory a causa dei blocchi sui file. Ad esempio, anziché configurare l'avvio del servizio direttamente dalla directory di lavoro dell'attività di avvio, copiare i file altrove in modo idempotente. Installare quindi il servizio da quella posizione usando le funzionalità del sistema operativo.

Nodi isolati

Considerare l'uso di dimensioni di VM isolate per i carichi di lavoro con requisiti normativi o di conformità. Le dimensioni isolate supportate nella modalità di configurazione della macchina virtuale includono Standard_E80ids_v4, Standard_M128ms, Standard_F72s_v2, Standard_G5, Standard_GS5 e Standard_E64i_v3. Per altre informazioni sulle dimensioni delle macchine virtuali isolate, vedere Isolamento delle macchine virtuali in Azure.

Evitare di creare giunzioni di directory in Windows

Le giunzioni di directory, talvolta denominate collegamenti reali di directory, sono difficili da gestire durante la pulizia di processi e attività. Usare i collegamenti simbolici (collegamenti temporanei) anziché i collegamenti reali.

Dischi temporanei e `AZ_BATCH_NODE_ROOT_DIR`

Batch si basa sui dischi temporanei delle macchine virtuali, per le dimensioni delle macchine virtuali compatibili con Batch, per archiviare i metadati correlati all'esecuzione di attività con tutti gli artefatti di esecuzione di ogni attività in questo disco temporaneo. Esempi di questi punti di montaggio temporanei del disco o directory sono: /mnt/batch, /mnt/resource/batch e D:\batch\tasks. La sostituzione, il rimontaggio, la creazione di giunzioni o symlink o il reindirizzamento di questi punti di montaggio e directory o qualsiasi directory padre non è supportata e può causare instabilità. Se è necessario più spazio su disco, prendere in considerazione l'uso di una dimensione o di una famiglia di macchine virtuali con spazio su disco temporaneo in grado di soddisfare i requisiti o collegare i dischi dati. Per altre informazioni, vedere la sezione successiva sul collegamento e la preparazione dei dischi dati per i nodi di calcolo.

Collegamento e preparazione dei dischi dati

Ogni singolo nodo di calcolo ha la stessa specifica del disco dati collegata se specificata come parte dell'istanza del pool di Batch. Solo i nuovi dischi dati possono essere collegati ai pool di Batch. Questi dischi dati collegati ai nodi di calcolo non vengono partizionati, formattati o montati automaticamente. È responsabilità dell'utente eseguire queste operazioni come parte dell'attività di avvio. Queste attività iniziali devono essere create per essere idempotenti. È possibile eseguire nuovamente le attività di avvio nei nodi di calcolo. Se l'attività di avvio non è idempotente, è possibile che si verifichi una potenziale perdita di dati nei dischi dati.

Suggerimento

Quando si monta un disco dati in Linux, se si annida il punto di montaggio del disco nei punti di montaggio temporanei di Azure, ad esempio /mnt o /mnt/resource, prestare attenzione a non introdurre dependency race. Ad esempio, se questi montaggi vengono eseguiti automaticamente dal sistema operativo, potrebbe verificarsi una race condition tra il disco temporaneo montato e i dischi dati montati sotto l'elemento padre. È necessario eseguire i passaggi per assicurarsi che le dipendenze appropriate vengano applicate dalle funzionalità disponibili come systemd o rinviare il montaggio del disco dati all'attività di avvio come parte dello script di preparazione del disco dati idempotente.

Preparazione dei dischi dati nei pool di Batch Linux

I dischi dati di Azure in Linux vengono presentati come dispositivi in blocchi e a essi viene assegnato un identificatore sd[X] tipico. Non è consigliabile basarsi sulle assegnazioni sd[X] statiche perché queste etichette vengono assegnate dinamicamente all'avvio e non è garantito che vi sia coerenza tra il primo e gli avvii successivi. È necessario identificare i dischi collegati tramite i mapping presentati in /dev/disk/azure/scsi1/. Ad esempio, se si è specificato LUN 0 per il disco dati nell'API AddPool, il disco si presenterebbe come /dev/disk/azure/scsi1/lun0. Ad esempio, se si volesse elencare questa directory, si potrebbe vedere:

user@host:~$ ls -l /dev/disk/azure/scsi1/
total 0
lrwxrwxrwx 1 root root 12 Oct 31 15:16 lun0 -> ../../../sdc

Non è necessario riconvertire il riferimento al mapping sd[X] nello script di preparazione, ma fare riferimento direttamente al dispositivo. In questo esempio, questo dispositivo sarà /dev/disk/azure/scsi1/lun0. È possibile specificare questo ID direttamente a fdisk, mkfs e a qualsiasi altro strumento necessario per il flusso di lavoro. In alternativa, è possibile usare lsblk con blkid per eseguire il mapping di UUID per il disco.

Per altre informazioni sui dischi dati di Azure in Linux, inclusi metodi alternativi per individuare dischi dati e opzioni /etc/fstab, vedere questo articolo. Assicurarsi che non ci siano dipendenze o race condition come descritto nella nota Suggerimento prima di promuovere il metodo all'uso in produzione.

Preparazione dei dischi dati nei pool Batch Windows

I dischi dati di Azure collegati ai nodi di calcolo Windows di Batch vengono presentati non partizionati e non formattati. È necessario enumerare i dischi con partizioni RAW per azioni nel contesto dell'attività di avvio. Queste informazioni possono essere recuperate usando il cmdlet di PowerShell Get-Disk. Ad esempio, è possibile vedere:

PS C:\Windows\system32> Get-Disk

Number Friendly Name Serial Number                    HealthStatus         OperationalStatus      Total Size Partition
                                                                                                             Style
------ ------------- -------------                    ------------         -----------------      ---------- ----------
0      Virtual HD                                     Healthy              Online                      30 GB MBR
1      Virtual HD                                     Healthy              Online                      32 GB MBR
2      Msft Virtu...                                  Healthy              Online                      64 GB RAW

Dove il numero di disco 2 è il disco dati non inizializzato collegato a questo nodo di calcolo. Questi dischi possono quindi essere inizializzati, partizionati e formattati in base alle esigenze del flusso di lavoro.

Per altre informazioni sui dischi dati di Azure in Windows, inclusi gli script di PowerShell di esempio, vedere questo articolo. Verificare che tutti gli script di esempio vengano convalidati per idempotenza prima di passare all'uso in produzione.

Raccogliere i log dell'agente di Batch

Se si nota un problema che interessa il comportamento di un nodo o di attività in esecuzione al suo interno, raccogliere i log dell'agente di Batch prima di deallocare i nodi in questione. I log dell'agente di Batch possono essere raccolti usando l'API Carica log del servizio Batch. Questi log possono essere forniti come parte di un ticket di supporto a Microsoft e facilitano l'individuazione e la risoluzione dei problemi.

API Batch

Errori di timeout

Gli errori di timeout non indicano necessariamente che il servizio non è riuscito a elaborare la richiesta. Quando si verifica un errore di timeout, è necessario ripetere l'operazione o recuperare lo stato della risorsa, in base alla situazione, per verificare se l'operazione è riuscita o meno.

Connettività

Considerare le indicazioni seguenti in merito alla connettività delle soluzioni Batch.

Gruppi di sicurezza di rete (NSG) e route definite dall'utente

Quando si esegue il provisioning di pool di Batch in una rete virtuale, assicurarsi di seguire le indicazioni sull'uso del tag del servizio BatchNodeManagement.region, porte, protocolli e direzione della regola. L'uso del tag del servizio è altamente consigliato. Non usare gli indirizzi IP del servizio Batch sottostanti perché possono cambiare nel tempo. L'uso diretto degli indirizzi IP del servizio Batch può generare instabilità, interruzioni o disservizi per i pool di Batch.

Per le route definite dall'utente, è consigliabile usare i tag del servizio BatchNodeManagement.area anziché gli indirizzi IP del servizio Batch poiché possono cambiare nel tempo.

Rispettare il DNS

Assicurarsi che i sistemi rispettino la durata (TTL) DNS per l'URL del servizio dell'account Batch. Assicurarsi inoltre che i client del servizio Batch e altri meccanismi di connettività al servizio Batch non si basino su indirizzi IP.

Tutte le richieste HTTP con codici di stato di livello 5xx insieme a un'intestazione "Connection: close" nella risposta richiedono la modifica del comportamento del client del servizio Batch. Il client del servizio Batch deve osservare la raccomandazione chiudendo la connessione esistente, risolvendo nuovamente il DNS per l'URL del servizio dell'account Batch e tentando di seguire le richieste in una nuova connessione.

Ripetere le richieste automaticamente

Assicurarsi che per i client del servizio Batch siano implementati criteri appropriati di ripetizione dei tentativi per riprovare automaticamente le richieste, anche durante il normale funzionamento e non esclusivamente durante i periodi di manutenzione del servizio. Questi criteri di ripetizione dei tentativi devono estendersi in un intervallo di almeno 5 minuti. Le funzionalità di ripetizione automatica dei tentativi sono fornite da vari SDK di Batch, ad esempio la classe .NET RetryPolicyProvider.

Indirizzi IP pubblici statici

In genere, le macchine virtuali in un pool di Batch sono accessibili tramite indirizzi IP pubblici che possono cambiare nel corso della durata del pool. Questa natura dinamica può rendere difficile l'interazione con un database o un altro servizio esterno che limita l'accesso a determinati indirizzi IP. Per risolvere questo problema, è possibile creare un pool usando un set di indirizzi IP pubblici statici che si controllano. Per altre informazioni, vedere Creare un pool di Azure Batch con indirizzi IP pubblici specificati.

Dipendenze sottostanti dei nodi di Batch

Quando si progettano le soluzioni Batch, tenere presenti le dipendenze e le restrizioni seguenti.

Risorse create dal sistema

Azure Batch crea e gestisce un set di utenti e gruppi nella macchina virtuale, che non devono essere modificati:

Windows:

Un utente denominato PoolNonAdmin
Un gruppo di utenti denominato WATaskCommon

Linux:

Un utente denominato _azbatch

Suggerimento

La denominazione di questi utenti o gruppi sono artefatti di implementazione e sono soggetti a modifiche in qualsiasi momento.

Pulizia dei file

Batch prova attivamente a pulire la directory di lavoro in cui vengono eseguite le attività, al termine del periodo di conservazione. La pulizia di tutti i file scritti al di fuori di questa directory è responsabilità dell'utente, per evitare di riempire spazio su disco.

La pulizia automatizzata per la directory di lavoro verrà bloccata se si esegue un servizio in Windows dalla directory di lavoro dell'attività di avvio perché la cartella è ancora in uso. Questa azione causa un calo delle prestazioni. Per risolvere il problema, specificare per questo servizio una directory diversa non gestita da Batch.

Passaggi successivi

Informazioni sul flusso di lavoro e sulle risorse principali del servizio Batch, ad esempio pool, nodi, processi e attività.
Informazioni su quote, limiti e vincoli di Azure Batch predefiniti e su come richiedere aumenti di quota.
Informazioni su come rilevare ed evitare errori nelle operazioni in background di pool e nodi.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-01-06

Condividi tramite

Procedure consigliate per Azure Batch

Pool

Configurazione e denominazione del pool

Sicurezza del pool

Limite di isolamento

Aggiornamenti dell'agente del nodo Batch

Aggiornamenti del sistema operativo

Durata e fatturazione del pool

Errori di allocazione del pool

Tempo di inattività non pianificato

Pool di immagini personalizzati

Immagini di terze parti

Pool di contenitori

Dipendenza dall'area di Azure

Processi

Meno processi, più attività

Durata dei processi

Attività

Salvare i dati delle attività

Gestire la durata delle attività

Inviare un numero elevato di attività nella raccolta

Impostare il numero massimo di attività per nodo nel modo appropriato

Progettare per la ripetizione di tentativi e di esecuzioni

Creare attività permanenti

Evitare tempi di esecuzione brevi

Usare l'ambito del pool per attività brevi nei nodi Windows

Nodi

Avviare le attività: durata e idempotenza

Nodi isolati

Evitare di creare giunzioni di directory in Windows

Dischi temporanei e AZ_BATCH_NODE_ROOT_DIR

Collegamento e preparazione dei dischi dati

Preparazione dei dischi dati nei pool di Batch Linux

Preparazione dei dischi dati nei pool Batch Windows

Raccogliere i log dell'agente di Batch

API Batch

Errori di timeout

Connettività

Gruppi di sicurezza di rete (NSG) e route definite dall'utente

Rispettare il DNS

Ripetere le richieste automaticamente

Indirizzi IP pubblici statici

Dipendenze sottostanti dei nodi di Batch

Risorse create dal sistema

Pulizia dei file

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Dischi temporanei e `AZ_BATCH_NODE_ROOT_DIR`