Referens för att konfigurera Kubernetes-kluster för Azure Machine Learning

Artikel
10/23/2024

Den här artikeln innehåller referensinformation för att konfigurera Kubernetes med Azure Machine Learning.

Kubernetes-version och region som stöds

Kubernetes-kluster som installerar Azure Machine Learning-tillägget har ett versionsstödfönster med "N-2", som är i linje med azure Kubernetes Service-versionssupportprincipen (AKS), där "N" är den senaste ga-delversionen av Azure Kubernetes Service.
- Om AKS till exempel introducerar 1.20.a idag stöds version 1.20.a, 1.20.b, 1.19.c, 1.19.d, 1.18.e och 1.18.f.
- Om kunderna kör en Kubernetes-version som inte stöds uppmanas de att uppgradera när de begär support för klustret. Kluster som kör Kubernetes-versioner som inte stöds omfattas inte av supportprinciperna för Azure Machine Learning-tillägget.
Tillgänglighet för Azure Machine Learning-tilläggsregionen:
- Azure Machine Learning-tillägget kan distribueras till AKS- eller Azure Arc-aktiverade Kubernetes i regioner som stöds som anges i Stöd för Azure Arc-aktiverade Kubernetes-regioner.

Rekommenderad resursplanering

När du distribuerar Azure Machine Learning-tillägget distribueras vissa relaterade tjänster till ditt Kubernetes-kluster för Azure Machine Learning. I följande tabell visas relaterade tjänster och deras resursanvändning i klustret:

Distribuera/daemonset	Replik #	Utbildning	Slutsatsdragning	CPU-begäran(m)	CPU-gräns(m)	Minnesbegäran(Mi)	Minnesgräns(Mi)
metrics-controller-manager	1	✓	✓	10	100	20	300
prometheus-operator	1	✓	✓	100	400	128	512
Prometheus	1	✓	✓	100	1000	512	4096
kube-state-metrics	1	✓	✓	10	100	32	256
gateway	1	✓	✓	50	500	256	2048
fluent-bit	1 per nod	✓	✓	10	200	100	300
inference-operator-controller-manager	1	✓	Ej tillämpligt	100	1000	128	1024
amlarc-identity-controller	1	✓	Ej tillämpligt	200	1000	200	1024
amlarc-identity-proxy	1	✓	Ej tillämpligt	200	1000	200	1024
azureml-ingress-nginx-controller	1	✓	Ej tillämpligt	100	1000	64	512
azureml-fe-v2	1 (för testsyfte) eller 3 (för produktionsändamål)	✓	Ej tillämpligt	900	2000	800	1200
onlinedistribution	1 per distribution	Användarskapad	Ej tillämpligt	<användardefiniering>	<användardefiniering>	<användardefiniering>	<användardefiniering>
online-distribution/identitets-sidovagn	1 per distribution	✓	Ej tillämpligt	10	50	100	100
aml-operator	1	Ej tillämpligt	✓	20	1020	124	2168
vulkan-antagning	1	Ej tillämpligt	✓	10	100	64	256
vulkankontrollant	1	Ej tillämpligt	✓	50	500	128	512
volcano-schedular	1	Ej tillämpligt	✓	50	500	128	512

Förutom dina egna distributioner/poddar är de totala minimikraven för systemresurser följande:

Scenario	Aktiverad slutsatsdragning	Aktiverad utbildning	CPU-begäran(m)	CPU-gräns(m)	Minnesbegäran(Mi)	Minnesgräns(Mi)	Nodantal	Rekommenderad minsta vm-storlek	Motsvarande AKS VM SKU
För test	✓	Ej tillämpligt	1780	8300	2440	12296	1 nod	2 vCPU, 7 GiB-minne, 6400 IOPS, 1 500 Mbps BW	DS2v2
För test	Ej tillämpligt	✓	410	4420	1492	10960	1 nod	2 vCPU, 7 GiB-minne, 6400 IOPS, 1 500 Mbps BW	DS2v2
För test	✓	✓	1910	10420	2884	15744	1 nod	4 vCPU, 14 GiB-minne, 12800 IOPS, 1500 Mbps BW	DS3v2
För produktion	✓	Ej tillämpligt	3600	12700	4240	15296	3 noder	4 vCPU, 14 GiB-minne, 12800 IOPS, 1500 Mbps BW	DS3v2
För produktion	Ej tillämpligt	✓	410	4420	1492	10960	1 noder	8 vCPU, 28GiB Memroy, 25600 IOPS, 6000Mbps BW	DS4v2
För produktion	✓	✓	3730	14820	4684	18744	3 noder	4 vCPU, 14 GiB-minne, 12800 IOPS, 1500 Mbps BW	DS4v2

Kommentar

I testsyfte bör du referera till resursbegäran.
I produktionssyfte bör du referera till resursgränsen.

Viktigt!

Här följer några andra överväganden som referens:

För högre nätverksbandbredd och bättre disk-I/O-prestanda rekommenderar vi en större SKU.
- Ta DV2/DSv2 som exempel, med hjälp av den stora SKU:n kan du minska tiden för att hämta avbildningen för bättre nätverks-/lagringsprestanda.
- Mer information om AKS-reservation finns i AKS-reservationen.
Om du använder AKS-kluster kan du behöva tänka på storleksgränsen för en containeravbildning i AKS. Mer information finns i storleksgränsen för AKS-containeravbildningar.

Förutsättningar för ARO- eller OCP-kluster

Inaktivera Security Enhanced Linux (SELinux)

Azure Machine Learning-datauppsättning (en SDK v1-funktion som används i Azure Machine Learning-träningsjobb) stöds inte på datorer med SELinux aktiverat. Därför måste du inaktivera selinux för alla arbetare för att kunna använda Azure Machine Learning-datauppsättningen.

Privilegierad installation för ARO och OCP

För distribution av Azure Machine Learning-tillägg i ARO- eller OCP-kluster beviljar du privilegierad åtkomst till Azure Machine Learning-tjänstkonton, kör oc edit scc privileged kommandot och lägger till följande tjänstkonton under "användare:":

system:serviceaccount:azure-arc:azure-arc-kube-aad-proxy-sa
system:serviceaccount:azureml:{EXTENSION-NAME}-kube-state-metrics
system:serviceaccount:azureml:prom-admission
system:serviceaccount:azureml:default
system:serviceaccount:azureml:prom-operator
system:serviceaccount:azureml:load-amlarc-selinux-policy-sa
system:serviceaccount:azureml:azureml-fe-v2
system:serviceaccount:azureml:prom-prometheus
system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default
system:serviceaccount:azureml:azureml-ingress-nginx
system:serviceaccount:azureml:azureml-ingress-nginx-admission

Kommentar

{EXTENSION-NAME}: är det tilläggsnamn som angetts med CLI-kommandot az k8s-extension create --name .
{KUBERNETES-COMPUTE-NAMESPACE}: är namnområdet för Kubernetes-beräkningen som anges när beräkningen kopplas till Azure Machine Learning-arbetsytan. Hoppa över att system:serviceaccount:{KUBERNETES-COMPUTE-NAMESPACE}:default konfigurera om KUBERNETES-COMPUTE-NAMESPACE är default.

Insamlad logginformation

Vissa loggar om Azure Machine Learning-arbetsbelastningar i klustret samlas in via tilläggskomponenter, till exempel status, mått, livscykel osv. I följande lista visas all logginformation som samlats in, inklusive vilken typ av loggar som samlats in och var de skickades till eller lagrades.

Podd	Beskrivning av resurser	Information om detaljerad loggning
amlarc-identity-controller	Begära och förnya Azure Blob/Azure Container Registry-token via hanterad identitet.	Används endast när `enableInference=true` anges när tillägget installeras. Den har spårningsloggar för status för att hämta identitet för slutpunkter som ska autentiseras med Azure Machine Learning-tjänsten.
amlarc-identity-proxy	Begära och förnya Azure Blob/Azure Container Registry-token via hanterad identitet.	Används endast när `enableInference=true` anges när tillägget installeras. Den har spårningsloggar för status för att hämta identitet för klustret att autentisera med Azure Machine Learning Service.
aml-operator	Hantera livscykeln för träningsjobb.	Loggarna innehåller status för Azure Machine Learning-träningsjobbspodden i klustret.
azureml-fe-v2	Klientdelskomponenten som dirigerar inkommande slutsatsdragningsbegäranden till distribuerade tjänster.	Åtkomstloggar på begäransnivå, inklusive begärande-ID, starttid, svarskod, felinformation och varaktigheter för svarstid för begäran. Spårningsloggar för tjänstmetadataändringar, tjänst som kör felfri status osv. i felsökningssyfte.
gateway	Gatewayen används för att kommunicera och skicka data fram och tillbaka.	Spåra loggar på begäranden från Azure Machine Learning-tjänster till klustren.
hälsokontroll	--	Loggarna innehåller `azureml` namnområdesresursstatus (Azure Machine Learning-tillägg) för att diagnostisera vad som gör att tillägget inte fungerar.
inference-operator-controller-manager	Hantera livscykeln för slutpunkter för slutsatsdragning.	Loggarna innehåller slutpunkten för Azure Machine Learning-slutpunkten och distributionspoddens status i klustret.
metrics-controller-manager	Hantera konfigurationen för Prometheus.	Spårningsloggar för status för uppladdning av träningsjobb och slutsatsdragningsdistributionsmått för CPU-användning och minnesanvändning.
reläserver	relay-servern behövs endast i arc-anslutna kluster och installeras inte i AKS-kluster.	Relay-servern fungerar med Azure Relay för att kommunicera med molntjänsterna. Loggarna innehåller information på begäransnivå från Azure Relay.

Azure Machine Learning-jobb ansluter till anpassad datalagring

Beständiga volymer (PV) och beständiga volymanspråk (PVC) är Kubernetes-begrepp, vilket gör det möjligt för användaren att tillhandahålla och använda olika lagringsresurser.

Skapa PV, ta NFS som exempel,

apiVersion: v1
kind: PersistentVolume
metadata:
  name: nfs-pv 
spec:
  capacity:
    storage: 1Gi 
  accessModes:
    - ReadWriteMany 
  persistentVolumeReclaimPolicy: Retain
  storageClassName: ""
  nfs: 
    path: /share/nfs
    server: 20.98.110.84 
    readOnly: false

Skapa PVC i samma Kubernetes-namnområde med ML-arbetsbelastningar. I metadatamåste du lägga till en etikett ml.azure.com/pvc: "true" som ska identifieras av Azure Machine Learning och lägga till anteckningar ml.azure.com/mountpath: <mount path> för att ange monteringssökvägen.

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: nfs-pvc  
  namespace: default
  labels:
    ml.azure.com/pvc: "true"
  annotations:
    ml.azure.com/mountpath: "/mnt/nfs"
spec:
  storageClassName: ""
  accessModes:
  - ReadWriteMany      
  resources:
     requests:
       storage: 1Gi

Viktigt!

Endast kommandojobbet/komponenten, hyperdrive-jobbet/komponenten och batchdistributionen stöder anpassad datalagring från PVC(s). > * Onlineslutpunkten, AutoML-jobbet och PRS-jobbet i realtid stöder inte anpassad datalagring från PVC(s).
Dessutom monteras endast poddarna i samma Kubernetes-namnområde med PVC:erna volymen. Dataexperten kan komma åt angiven mount path i PVC-kommentaren i jobbet. AutoML-jobb och Prs-jobb har inte åtkomst till PVC:erna.

Azure Machine Learning-spår och toleranser som stöds

Taint och Toleration är Kubernetes-begrepp som fungerar tillsammans för att säkerställa att poddar inte schemaläggs till olämpliga noder.

Kubernetes-kluster som är integrerade med Azure Machine Learning (inklusive AKS- och Arc Kubernetes-kluster) stöder nu specifika Azure Machine Learning-taints och toleranser, vilket gör det möjligt för användare att lägga till specifika Azure Machine Learning-taints på azure machine learning-dedikerade noder, för att förhindra att icke-Azure Machine Learning-arbetsbelastningar schemaläggs på dessa dedikerade noder.

Vi stöder endast placering av amlarc-specifika taints på dina noder, som definieras på följande sätt:

Besudla	Tangent	Värde	Effekt	beskrivning
amlarc övergripande	ml.azure.com/amlarc	true	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Alla Azure Machine Learning-arbetsbelastningar, inklusive tilläggssystemtjänstpoddar och poddar för maskininlärningsarbetsbelastningar, skulle tolerera den här `amlarc overall` fliken.
amlarc-system	ml.azure.com/amlarc-system	true	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Endast systemtjänstpoddar för Azure Machine Learning-tillägg skulle tolerera den här `amlarc system` fliken.
amlarc-arbetsbelastning	ml.azure.com/amlarc-workload	true	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Endast maskininlärningsarbetsbelastningspoddar skulle tolerera den här `amlarc workload` tainten.
amlarc-resursgrupp	ml.azure.com/resource-group	<resursgruppsnamn>	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Endast maskininlärningsarbetsbelastningspoddar som skapats från den specifika resursgruppen skulle tolerera den här `amlarc resource group` tainten.
amlarc-arbetsyta	ml.azure.com/workspace	<arbetsytans namn>	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Endast maskininlärningsarbetsbelastningspoddar som skapats från den specifika arbetsytan skulle tolerera den här `amlarc workspace` tainten.
amlarc-beräkning	ml.azure.com/compute	<beräkningsnamn>	`NoSchedule`, `NoExecute` eller `PreferNoSchedule`	Endast maskininlärningsarbetsbelastningspoddar som skapats med det specifika beräkningsmålet skulle tolerera den här `amlarc compute` tainten.

Dricks

För Azure Kubernetes Service (AKS) kan du följa exemplet i Metodtips för avancerade scheduler-funktioner i Azure Kubernetes Service (AKS) för att tillämpa taints på nodpooler.
För Arc Kubernetes-kluster, till exempel lokala Kubernetes-kluster, kan du använda kubectl taint kommandot för att lägga till taints i noder. Fler exempel finns i Kubernetes-dokumentationen.

Bästa praxis

Enligt dina schemaläggningskrav för de Azure Machine Learning-dedikerade noderna kan du lägga till flera amlarc-specifika taints för att begränsa vad Azure Machine Learning-arbetsbelastningar kan köra på noder. Vi listar metodtips för att använda amlarc taints:

Om du vill förhindra att icke-Azure Machine Learning-arbetsbelastningar körs på Azure Machine Learning-dedikerade noder/nodpooler kan du bara lägga till taint i aml overall dessa noder.
För att förhindra att icke-systempoddar körs på Azure Machine Learning-dedikerade noder/nodpooler måste du lägga till följande taints:
- amlarc overall besudla
- amlarc system besudla
För att förhindra att icke-ml-arbetsbelastningar körs på Azure Machine Learning-dedikerade noder/nodpooler måste du lägga till följande taints:
- amlarc overall besudla
- amlarc workloads besudla
För att förhindra att arbetsbelastningar som inte skapas från arbetsytan X körs på Azure Machine Learning-dedikerade noder/nodpooler måste du lägga till följande taint:
- amlarc overall besudla
- amlarc resource group (has this <workspace X>) besudla
- amlarc <workspace X> besudla
Om du vill förhindra att arbetsbelastningar som inte skapas av beräkningsmål X körs på Azure Machine Learning-dedikerade noder/nodpooler måste du lägga till följande taint:
- amlarc overall besudla
- amlarc resource group (has this <workspace X>) besudla
- amlarc workspace (has this <compute X>) besudla
- amlarc <compute X> besudla

Integrera annan ingresskontrollant med Azure Machine Learning-tillägget via HTTP eller HTTPS

Förutom standardinferensen för Azure Machine Learning-lastbalanseraren azureml-fe kan du även integrera andra lastbalanserare med Azure Machine Learning-tillägget via HTTP eller HTTPS.

Den här självstudien visar hur du integrerar Nginx-ingresskontrollanten eller Azure Application Gateway.

Förutsättningar

Distribuera Azure Machine Learning-tillägget med inferenceRouterServiceType=ClusterIP och allowInsecureConnections=True, så att Nginx Ingress Controller kan hantera TLS-avslutning på egen hand i stället för att överlämna det till azureml-fe när tjänsten exponeras via HTTPS.
För att integrera med Nginx Ingress Controller behöver du en Kubernetes-klusterkonfiguration med Nginx Ingress Controller.
- Skapa en grundläggande kontrollant: Om du börjar från början kan du läsa de här anvisningarna.
För att integrera med Azure Application Gateway behöver du en Kubernetes-klusterkonfiguration med Ingresskontrollant för Azure Application Gateway.
- Greenfield-distribution: Om du börjar från början kan du läsa de här anvisningarna.
- Distribution av Brownfield: Om du har ett befintligt AKS-kluster och Application Gateway kan du läsa de här anvisningarna.
Om du vill använda HTTPS i det här programmet behöver du ett x509-certifikat och dess privata nyckel.

Exponera tjänster via HTTP

För att exponera azureml-fe använder vi följande ingressresurs:

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Den här ingressen azureml-fe exponerar tjänsten och den valda distributionen som standardserverdel för Nginx-ingresskontrollanten.

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  rules:
  - http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Den här ingressen azureml-fe exponerar tjänsten och den valda distributionen som standardserverdel för Application Gateway.

Spara ovanstående ingressresurs som ing-azureml-fe.yaml.

Distribuera ing-azureml-fe.yaml genom att köra:
```
kubectl apply -f ing-azureml-fe.yaml
```
Kontrollera loggen för ingresskontrollanten för distributionsstatus.
azureml-fe Nu ska programmet vara tillgängligt. Du kan kontrollera genom att besöka:
- Nginx Ingress Controller: den offentliga LoadBalancer-adressen för Nginx Ingress Controller
- Azure Application Gateway: den offentliga adressen för Application Gateway.
Skapa ett slutsatsdragningsjobb och anropa.

Kommentar

Ersätt ip-adressen i scoring_uri med den offentliga LoadBalancer-adressen för Nginx-ingresskontrollanten innan du anropar.

Exponera tjänster via HTTPS

Innan du distribuerar ingress måste du skapa en kubernetes-hemlighet som värd för certifikatet och den privata nyckeln. Du kan skapa en kubernetes-hemlighet genom att köra
```
kubectl create secret tls <ingress-secret-name> -n azureml --key <path-to-key> --cert <path-to-cert>
```

Definiera följande ingress. I ingressen anger du namnet på hemligheten i avsnittet secretName .

# Nginx Ingress Controller example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: nginx
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

# Azure Application Gateway example
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: azureml-fe
  namespace: azureml
spec:
  ingressClassName: azure-application-gateway
  tls:
  - hosts:
    - <domain>
    secretName: <ingress-secret-name>
  rules:
  - host: <domain>
    http:
      paths:
      - path: /
        backend:
          service:
            name: azureml-fe
            port:
              number: 80
        pathType: Prefix

Kommentar

Ersätt <domain> och <ingress-secret-name> i ovanstående ingressresurs med domänen som pekar på LoadBalancer för Nginx-ingresskontrollanten /Application Gateway och namnet på din hemlighet. Lagra ovanstående ingressresurs i ett filnamn ing-azureml-fe-tls.yaml.

Distribuera ing-azureml-fe-tls.yaml genom att köra
```
kubectl apply -f ing-azureml-fe-tls.yaml
```
Kontrollera loggen för ingresskontrollanten för distributionsstatus.
Nu är programmet azureml-fe tillgängligt på HTTPS. Du kan kontrollera detta genom att besöka den offentliga LoadBalancer-adressen för Nginx Ingress Controller.
Skapa ett slutsatsdragningsjobb och anropa.

Kommentar

Ersätt protokollet och IP-adressen i scoring_uri med https och domän som pekar på LoadBalancer för Nginx-ingresskontrollanten eller Application Gateway innan du anropar.

Använda en ARM-mall till att distribuera tillägg

Tillägg i hanterat kluster kan distribueras med ARM-mall. Du hittar en exempelmall från deployextension.json med en demoparameterfil deployextension.parameters.json

Om du vill använda exempeldistributionsmallen redigerar du parameterfilen med rätt värde och kör sedan följande kommando:

az deployment group create --name <ARM deployment name> --resource-group <resource group name> --template-file deployextension.json --parameters deployextension.parameters.json

Mer information om hur du använder ARM-mall finns i dokumentet om ARM-mallar

Versionsanteckning för AzuremML-tillägg

Kommentar

Nya funktioner släpps i en kalender varannan vecka.

Datum	Version	Versionsbeskrivning
26 sep, 2024	1.1.64	Säkerhetsrisker har åtgärdats.
21 november 2023	1.1.39	Säkerhetsrisker har åtgärdats. Förfinat felmeddelande. Ökad stabilitet för relayserver-API:et.
1 november 2023	1.1.37	Uppdatera dataplanets envoy-version.
11 okt. 2023	1.1.35	Åtgärda sårbar bild. Buggkorrigeringar.
25 aug. 2023	1.1.34	Åtgärda sårbar bild. Returnera mer detaljerat identitetsfel. Buggkorrigeringar.
18 juli 2023	1.1.29	Lägg till nya identitetsoperatorfel. Buggkorrigeringar.
Den 4 juni 2023	1.1.28	Förbättra automatisk skalning för att hantera flera nodpooler. Buggkorrigeringar.
18 apr , 2023	1.1.26	Korrigeringar av buggar och sårbarheter.
27 mars 2023	1.1.25	Lägg till begränsning av Azure Machine Learning-jobb. Snabbt fel för träningsjobb när SSH-installationen misslyckades. Minska Prometheus-skrapningsintervallet till 30-talet. Förbättra felmeddelanden för slutsatsdragning. Åtgärda sårbar bild.
7 mar 2023	1.1.23	Ändra standardinstanstyp så att 2Gi-minne används. Uppdatera måttkonfigurationer för scoring-fe som lägger till 15s scrape_interval. Lägg till resursspecifikation för mdc-sidovagn. Åtgärda sårbar bild. Buggkorrigeringar.
14 feb 2023	1.1.21	Buggkorrigeringar.
7 feb 2023	1.1.19	Förbättra felmeddelandet för slutsatsdragning. Uppdatera standardinstanstypen för att använda 2Gi-minnesgräns. Kontrollera hälsotillståndet för klustret för poddhälsa, resurskvot, Kubernetes-version och tilläggsversion. Felkorrigeringar
27 dec 2022	1.1.17	Flytta Fluent-biten från DaemonSet till sidovagnar. Lägg till MDC-stöd. Förfina felmeddelanden. Stöd för klusterlägesjobb (windows, linux). Felkorrigeringar
29 november 2022	1.1.16	Lägg till validering av instanstyp med ny CRD. Stödtolerans. Förkorta SVC-namn. Workload Core-timme. Flera felkorrigeringar och förbättringar.
13 sep 2022	1.1.10	Buggkorrigeringar.
29 aug 2022	1.1.9	Förbättrad logik för hälsokontroll. Buggkorrigeringar.
23 juni 2022	1.1.6	Buggkorrigeringar.
15 juni 2022	1.1.5	Utbildning har uppdaterats för att använda ny vanlig körning för att köra jobb. Azure Relay-användningen för AKS-tillägget har tagits bort. Service Bus-användningen har tagits bort från tillägget. Säkerhetskontextanvändningen har uppdaterats. Uppdaterade slutsatsdragningen azureml-fe till v2. Har uppdaterats för att använda Volcano som schemaläggare för träningsjobb. Buggkorrigeringar.
14 okt 2021	1.0.37	Stöd för PV/PVC-volymmontering i AMLArc-träningsjobb.
16 september 2021	1.0.29	Nya tillgängliga regioner, WestUS, CentralUS, NorthCentralUS, KoreaCentral. Utökningsbarhet för jobbkö. Se information om jobbköer i Azure Machine Learning Workspace Studio. Policy för automatisk avlivning. Stöd max_run_duration_seconds i ScriptRunConfig. Systemet försöker automatiskt avbryta körningen om det tog längre tid än inställningsvärdet. Prestandaförbättringar för stöd för automatisk skalning av kluster. Distribution av Arc-agent och ML-tillägg från det lokala containerregistret.
den 24 augusti 2021	1.0.28	Beräkningsinstanstypen stöds i jobbet YAML. Tilldela hanterad identitet till AMLArc-beräkning.
den 10 augusti 2021	1.0.20	Nytt Kubernetes-distributionsstöd, K3S – Lightweight Kubernetes. Distribuera Azure Machine Learning-tillägget till ditt AKS-kluster utan att ansluta via Azure Arc. Automatiserad maskininlärning (AutoML) via Python SDK. Använd 2.0 CLI för att koppla Kubernetes-klustret till Azure Machine Learning-arbetsytan. Optimera användningen av PROCESSOR-/minnesresurser för Azure Machine Learning-tilläggskomponenter.
den 2 juli 2021	1.0.13	Nytt Stöd för Kubernetes-distributioner, OpenShift Kubernetes och GKE (Google Kubernetes Engine). Stöd för automatisk skalning. Om det användarhanterade Kubernetes-klustret aktiverar automatisk skalning skalas klustret automatiskt ut eller skalas in enligt volymen av aktiva körningar och distributioner. Prestandaförbättring på jobbstartaren, vilket förkortar jobbkörningstiden till en hel del.

Dela via

Referens för att konfigurera Kubernetes-kluster för Azure Machine Learning

Kubernetes-version och region som stöds

Rekommenderad resursplanering

Förutsättningar för ARO- eller OCP-kluster

Inaktivera Security Enhanced Linux (SELinux)

Privilegierad installation för ARO och OCP

Insamlad logginformation

Azure Machine Learning-jobb ansluter till anpassad datalagring

Azure Machine Learning-spår och toleranser som stöds

Bästa praxis

Integrera annan ingresskontrollant med Azure Machine Learning-tillägget via HTTP eller HTTPS

Förutsättningar

Exponera tjänster via HTTP

Exponera tjänster via HTTPS

Använda en ARM-mall till att distribuera tillägg

Versionsanteckning för AzuremML-tillägg

Feedback

Ytterligare resurser