Azure Batch-pool- och nodfel

Vissa åtgärder för att skapa och hantera Azure Batch-pooler sker omedelbart. Det är enkelt att identifiera fel för dessa åtgärder eftersom fel vanligtvis returneras omedelbart från API:et, kommandoraden eller användargränssnittet. Vissa åtgärder är dock asynkrona, körs i bakgrunden och tar flera minuter att slutföra. I den här artikeln beskrivs olika sätt att identifiera och undvika fel som kan inträffa i bakgrundsåtgärderna för pooler och noder.

Se till att ställa in dina program så att de implementerar omfattande felkontroll, särskilt för asynkrona åtgärder. Omfattande felkontroll kan hjälpa dig att snabbt identifiera och diagnostisera problem.

Poolfel

Poolfel kan vara relaterade till tidsgräns för storleksändring eller fel, automatiskt skalningsfel, eller borttagningsfel av pooler. Med hjälp av mer detaljerade felmeddelanden har det blivit enklare att diagnostisera och lösa dessa problem.

Information om relayproviderns fel

Relay-providerfel vidarebefordras direkt från underliggande Azure-resursprovidrar, till exempel VMSS (Azure Virtual Machine Scale Set), och de ger djupare insikter om varför en poolåtgärd misslyckades. Dessa fel uppstår vanligtvis när en pools skapande, storleksändring eller borttagning påverkas av ett serviceproblem på lägre nivå.

Struktur för reläleverantörsfel

Dessa fel anges i ett strukturerat JSON-format som innehåller följande nyckelkomponenter:

Felkod: Den typ av fel som påträffades (t.ex. AllocationFailed, BadRequest osv.).
Felmeddelande: Kort beskrivning av felet
Providerfel Json: Ett detaljerat felmeddelande som genereras av den underliggande Azure-tjänsten (t.ex. VMSS).
Leverantörsfel trunkerat: Ett booleskt värde som anger om felmeddelandet har trunkerats på grund av storleksbegränsningar.

Exempel på reläleverantörsfel

Exempel 1

Felkod:AllocationFailed
Felmeddelande: Det gick inte att allokera önskat antal dedikerade noder
Providerfel JSON:

{
  "error": {
    "code": "BadRequest",
    "message": "The selected VM size 'STANDARD_A1_V2' cannot boot Hypervisor Generation '2'. If this was a Create operation, please ensure that the Hypervisor Generation of the Image matches the Hypervisor Generation of the selected VM Size. If this was an Update operation, please choose a Hypervisor Generation '2' VM Size."
  }
}

Providerfel: JSON Avkortat: Felaktig

Det här felet anger ett matchningsfel mellan vm-storleken och Hypervisor-genereringen. Felmeddelandet föreslår att du väljer en kompatibel VM-storlek för att lösa problemet.

Exempel 2

Felkod:AllocationFailed
Felmeddelande: Ett internt fel uppstod vid storleksändring av poolen
Provider Error JSON:

{
  "error": {
    "code": "ScopeLocked",
    "message": "The scope '/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Compute/VirtualMachineScaleSets/<guid>-azurebatch-VMSS-D' cannot perform write operation because the following scope(s) are locked: '/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.Compute/VirtualMachineScaleSets/<guid>-azurebatch-VMSS-D'. Please remove the lock and try again."
  }
}

Providerfel JSON Trunkerat: Falskt

Det här felet anger att åtgärden för att ändra storlek på poolen misslyckades eftersom ett omfång var låst, vilket hindrade skrivåtgärden. Om du tar bort låset kan problemet lösas.

Relay-providerfel ger djupare insikter om fel vid poolåtgärder, vilket gör det enklare att diagnostisera och lösa problem direkt från Azure-tjänsterna.

Ändra storlek på tidsgränsöverskridning eller fel

När du skapar en ny pool eller ändrar storlek på en befintlig pool anger du målantalet noder. Åtgärden för att skapa eller ändra storlek slutförs omedelbart, men den faktiska fördelningen av nya noder eller borttagning av befintliga noder kan ta flera minuter. Du kan ange tidsgränsen för storleksändring i API:erna Skapa pool eller Ändra storlek på pool . Om Batch inte kan allokera målantalet noder under storleksändringsens tidsgränsperiod, går poolen in i ett stabilt tillstånd och storleksändringsfel rapporteras.

Vanliga orsaker till storleksändringsfel är:

Ändra storlek på tidsgränsen för kort. Standardtimeouten på 15 minuter är vanligtvis tillräckligt lång för att allokera eller ta bort poolnoder. Om du allokerar ett stort antal noder, till exempel mer än 1 000 noder från en Azure Marketplace-avbildning eller mer än 300 noder från en anpassad virtuell datoravbildning, kan du ange tidsgränsen för storleksändringen till 30 minuter.
Otillräcklig kärnkvot. Ett Batch-konto är begränsat i antalet kärnor som det kan allokera över alla pooler och slutar allokera noder när det når den kvoten. Du kan öka kärnkvoten så att Batch kan allokera fler noder. Mer information finns i Batch-tjänstkvoter och -gränser.
Otillräckliga IP-adresser för undernätet när en pool finns i ett virtuellt nätverk. Ett virtuellt nätverksundernät måste ha tillräckligt med IP-adresser för att allokera till varje begärd poolnod. Annars går det inte att skapa noderna. Mer information finns i Skapa en Azure Batch-pool i ett virtuellt nätverk.
Otillräckliga resurser när en pool finns i ett virtuellt nätverk. När du skapar en pool i ett virtuellt nätverk kan du skapa resurser som lastbalanserare, offentliga IP-adresser och nätverkssäkerhetsgrupper (NSG:er) i samma prenumeration som Batch-kontot. Kontrollera att prenumerationskvoterna är tillräckliga för dessa resurser.
Stora pooler med anpassade VM-avbildningar. Stora pooler som använder anpassade VM-avbildningar kan ta längre tid att allokera, och tidsgränsöverskridanden kan inträffa vid ändring av storlek. Rekommendationer om gränser och konfiguration finns i Skapa en pool med Azure Compute Gallery.

Automatiska skalningsfel

Du kan ange att Azure Batch automatiskt skalar antalet noder i en pool och du definierar parametrarna för den automatiska skalningsformeln för poolen. Batch-tjänsten använder sedan formeln för att regelbundet utvärdera antalet noder i poolen och ange nya målnummer. Mer information finns i Skapa en automatisk formel för skalning av beräkningsnoder i en Batch-pool.

Följande problem kan uppstå när du använder automatisk skalning:

Den automatiska skalningsutvärderingen misslyckas.
Den resulterande storleksändringen misslyckas och tidsgränsen överskrids.
Ett problem med den automatiska skalningsformeln leder till felaktiga nodmålvärden. Storleksändringen kan antingen fungera eller överskrida tidsgränsen.

Om du vill få information om den senaste automatiska skalningsutvärderingen använder du egenskapen Utvärdera poolens automatiska skalering. Den här egenskapen rapporterar utvärderingstid, värden och resultat samt eventuella prestandafel.

Slutförande av poolstorleksändringshändelse fångar information om alla utvärderingar.

Fel vid borttagning av pooler

Om du vill ta bort en pool som innehåller noder tar Batch först bort noderna, vilket kan ta flera minuter att slutföra. Batch tar sedan bort själva poolobjektet.

Batch anger poolState till deleting under borttagningsprocessen. Det anropande programmet kan identifiera om borttagningen av poolen tar för lång tid genom att använda egenskaperna state och stateTransitionTime.

Om borttagningen av poolen tar längre tid än förväntat, försöker Batch regelbundet tills poolen har tagits bort. I vissa fall beror fördröjningen på ett avbrott i Azure-tjänsten eller andra tillfälliga problem. Andra faktorer som förhindrar att poolen tas bort kan kräva att du vidtar åtgärder för att åtgärda problemet. Dessa faktorer kan omfatta följande problem:

Resurslås kan placeras på Batch-skapade resurser eller på nätverksresurser som Batch använder.
Resurser som du har skapat kan bero på en Batch-skapad resurs. Om du till exempel skapar en pool i ett virtuellt nätverk skapar Batch en NSG, en offentlig IP-adress och en lastbalanserare. Om du använder dessa resurser utanför poolen kan du inte ta bort poolen.
Resursprovidern Microsoft.Batch kan avregistreras från prenumerationen som innehåller din pool.
För Batch-konton Microsoft Azure Batch i användarprenumerationsläge kanske du inte längre har rollen Deltagare eller Ägare i den prenumeration som innehåller din pool. Mer information finns i Tillåt Batch att komma åt prenumerationen.

Nodfel

Även när Batch allokerar noder i en pool kan olika problem orsaka att vissa noder inte är felfria och inte kan köra uppgifter. Dessa noder debiteras fortfarande, så det är viktigt att identifiera problem för att undvika att betala för noder som du inte kan använda. Att känna till vanliga nodfel och känna till det aktuella jobbtillståndet är användbart för felsökning.

Startuppgiftsfel

Du kan ange en valfri startaktivitet för en pool. Precis som med alla aktiviteter använder startaktiviteten en kommandorad och kan ladda ned resursfiler från lagring. Startaktiviteten körs för varje nod när noden startar. Egenskapen waitForSuccess anger om Batch väntar tills startaktiviteten har slutförts innan någon aktivitet schemaläggs till en nod. Om du konfigurerar noden att vänta tills startaktiviteten har slutförts, men startaktiviteten misslyckas, kan noden inte användas men debiteras fortfarande.

Du kan identifiera startaktivitetsfel med hjälp av egenskaperna taskExecutionResult och taskFailureInformation för egenskapen startTaskInformation på den översta nivån.

En misslyckad startaktivitet gör också att Batch anger computeNodeState till starttaskfailed, om waitForSuccess var satt till true.

Precis som med alla uppgifter kan det finnas många orsaker till ett fel vid start av en uppgift. För att felsöka, kontrollera stdout, stderr och andra aktivitetsspecifika loggfiler.

Startaktiviteter måste återaktiveras eftersom startaktiviteten kan köras flera gånger på samma nod, till exempel när noden återskapas eller startas om. I sällsynta fall, när en startaktivitet körs efter en händelse som orsakar en nodomstart, ommålas ett operativsystem (OS) eller en tillfällig disk medan den andra inte gör det. Eftersom Batch-startuppgifter och alla Batch-uppgifter körs från den tillfälliga disken är den här situationen vanligtvis inte ett problem. I fall där startuppgiften installerar ett program på OS-disken och behåller andra data på den tillfälliga disken kan det dock uppstå synkroniseringsproblem. Skydda programmet om du använder båda diskarna.

Nedladdningsfel för programpaket

Du kan ange ett eller flera programpaket för en pool. Batch laddar ned de angivna paketfilerna till varje nod och avkomprimerar filerna när noden startar, men innan den schemalägger uppgifter. Det är vanligt att använda ett startaktivitetskommando med programpaket, till exempel för att kopiera filer till en annan plats eller för att köra installationsprogrammet.

Om ett programpaket inte hämtar och avkomprimera rapporterar egenskapen computeNodeError felet och anger nodtillståndet till unusable.

Containernedladdningsfel

Du kan ange en eller flera containerreferenser i en pool. Batch laddar ned de angivna containrarna till varje nod. Om containern inte kan laddas ned rapporterar egenskapen computeNodeError felet och anger nodtillståndet till unusable.

Uppdateringar av nodoperativsystem

För Windows-pooler enableAutomaticUpdates är inställt på true som standard. Även om det rekommenderas att tillåta automatiska uppdateringar kan uppdateringar avbryta aktivitetsförloppet, särskilt om aktiviteterna är tidskrävande. Du kan ange det här värdet till false om du behöver se till att en OS-uppdatering inte inträffar oväntat.

Nod i oanvändbart tillstånd

Batch kan ange computeNodeState till unusable av många orsaker. Du kan inte schemalägga aktiviteter till en unusable nod, men noden debiteras fortfarande.

Om Batch kan fastställa orsaken rapporterar egenskapen computeNodeError den. Om en nod är i ett unusable tillstånd, men inte har någon computeNodeError, innebär det att Batch inte kan kommunicera med den virtuella datorn. I det här fallet försöker Batch alltid återställa den virtuella datorn. Batch försöker dock inte automatiskt återställa virtuella datorer som inte kunde installera programpaket eller containrar, även om deras tillstånd är unusable.

Andra orsaker till unusable noder kan vara följande orsaker:

En anpassad VM-avbildning är ogiltig. Bilden är till exempel inte korrekt förberedd.
En virtuell dator flyttas på grund av ett infrastrukturfel eller en uppgradering på låg nivå. Batch återställer noden.
En VM-avbildning har installerats på maskinvara som inte stöder den.
De virtuella datorerna finns i ett virtuellt Azure-nätverk och trafiken har blockerats till nyckelportar.
De virtuella datorerna finns i ett virtuellt nätverk, men utgående trafik till Azure Storage blockeras.
De virtuella datorerna finns i ett virtuellt nätverk med en anpassad DNS-konfiguration och DNS-servern kan inte matcha Azure Storage.

Nodagentloggfiler

Batch-agentprocessen som körs på varje poolnod innehåller loggfiler som kan hjälpa dig om du behöver kontakta supporten om ett problem med poolnoden. Du kan ladda upp loggfiler för en nod via api:et Azure Portal, Batch Explorer eller Compute Node – Upload Batch Service Logs. När du har laddat upp och sparat loggfilerna kan du ta bort noden eller poolen för att spara kostnaden för att köra noderna.

Noddisken är full

Batch använder den tillfälliga enheten på en virtuell nodpool för att lagra filer som följande jobbfiler, aktivitetsfiler och delade filer:

Programpaketfiler
Resursfiler för uppgifter
Programspecifika filer som laddats ned till en av Batch-mapparna
Stdout och stderr-filer för varje uppgiftsprogramkörning
Programspecifika utdatafiler

Filer som programpaket eller starta aktivitetsresursfiler skrivs bara en gång när Batch skapar poolnoden. Även om de bara skriver en gång kan de fylla den tillfälliga enheten om filerna är för stora.

Andra filer, till exempel stdout och stderr, skrivs för varje uppgift som en nod kör. Om ett stort antal aktiviteter körs på samma nod, eller om aktivitetsfilerna är för stora, kan de fylla den tillfälliga enheten.

Noden behöver också en liten mängd utrymme på OS-disken för att skapa användare när den har startats.

Storleken på den tillfälliga enheten beror på storleken på den virtuella datorn. En faktor när du väljer en VM-storlek är att se till att den temporära disken har tillräckligt med utrymme för den planerade arbetsbelastningen.

När du lägger till en pool i Azure Portal kan du visa en fullständig lista över VM-storlekar, inklusive kolumnen Resursdiskstorlek. Artiklarna som beskriver VM-storlekar har tabeller med en Temp Storage-kolumn . Mer information finns i Beräkningsoptimerade storlekar för virtuella datorer. Ett exempel på en storlekstabell finns i Fsv2-serien.

Du kan ange en kvarhållningstid för filer som skrivs av varje aktivitet. Kvarhållningstiden avgör hur länge aktivitetsfilerna ska behållas innan de rensas automatiskt. Du kan minska kvarhållningstiden till lägre lagringskrav.

Om den tillfälliga disken eller OS-disken får slut på utrymme, eller är nära att få slut på utrymme, flyttas noden till unusablecomputeNoteState och nodfelet säger att disken är full.

Om du inte är säker på vad som tar upp utrymme på noden kan du prova att fjärransluta till noden och undersöka manuellt. Du kan också använda API:et File - List From Compute Node för att undersöka filer, till exempel aktivitetsutdata, i Batch-hanterade mappar. Det här API:et visar endast filer i batchhanterade kataloger. Om dina uppgifter har skapat filer någon annanstans visar inte det här API:et dem.

När du har hämtat alla data som du behöver från noden eller överför dem till ett beständigt lager kan du ta bort data efter behov för att frigöra utrymme.

Du kan ta bort gamla slutförda jobb eller aktiviteter vars uppgiftsdata fortfarande finns på noderna. Titta i recentTasks-samlingen i taskInformation på noden eller använd API:et Arkiv – lista från beräkningsnod. Om du tar bort ett jobb tas alla uppgifter i jobbet bort. Om du tar bort aktiviteterna i jobbet utlöses borttagning av data i aktivitetskatalogerna på noderna och frigör utrymme. När du har frigjort tillräckligt med utrymme startar du om noden. Noden bör flytta ut ur unusable tillstånd och till idle igen.

Om du vill återställa en oanvändbar nod i VirtualMachineConfiguration-pooler kan du ta bort noden från poolen med hjälp av API:et Pool – Ta bort noder . Sedan kan du utöka poolen igen för att ersätta den felaktiga noden med en ny.

Viktigt!

Omavbildning stöds just nu inte för VirtualMachineConfiguration-pooler.

Nästa steg

Läs mer om felkontroll för jobb och uppgifter.
Lär dig mer om metodtips för att arbeta med Azure Batch.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-01-05