Delen via


Overzicht van het implementeren van een Ray-cluster in Azure Kubernetes Service (AKS)

In dit artikel leert u hoe u een Ray-cluster implementeert in Azure Kubernetes Service (AKS) met behulp van de KubeRay-operator. U leert ook hoe u het Ray-cluster gebruikt om een eenvoudig machine learning-model te trainen en de resultaten weer te geven op het Ray-dashboard.

Belangrijk

Opensource-software wordt vermeld in AKS-documentatie en -voorbeelden. Software die u implementeert, is uitgesloten van AKS-serviceovereenkomsten, beperkte garantie en ondersteuning voor Azure. Wanneer u opensource-technologie naast AKS gebruikt, raadpleegt u de beschikbare ondersteuningsopties van de respectieve community's en projectonderhouders om een plan te ontwikkelen.

Microsoft neemt de verantwoordelijkheid voor het bouwen van de opensource-pakketten die we implementeren op AKS. Deze verantwoordelijkheid omvat het volledige eigendom van het build-, scan-, teken-, validatie- en hotfixproces, samen met controle over de binaire bestanden in container-images. Zie Beveiligingsbeheer voor AKS- en AKS-ondersteuningsdekking voor meer informatie.

Wat is Ray?

Ray is een opensource-project dat is ontwikkeld in HET RISE Lab van UC Berkeley dat een geïntegreerd framework biedt voor het schalen van AI- en Python-toepassingen. Het bestaat uit een kern gedistribueerde runtime en een set AI-bibliotheken die zijn ontworpen om machine learning-workloads te versnellen.

Ray vereenvoudigt het proces van het uitvoeren van rekenintensieve Python-taken op schaal, zodat u uw toepassingen naadloos kunt schalen. Het framework biedt ondersteuning voor verschillende machine learning-taken, waaronder gedistribueerde training, afstemming van hyperparameters, versterkingsleer en productiemodel.

Zie de Ray GitHub-opslagplaats voor meer informatie.

Wat is KubeRay?

KubeRay is een opensource Kubernetes-operator voor het implementeren en beheren van Ray-clusters in Kubernetes. KubeRay automatiseert de implementatie, schaalaanpassing en bewaking van Ray-clusters. Het biedt een declaratieve manier om Ray-clusters te definiëren met behulp van aangepaste Kubernetes-resources, zodat u Ray-clusters eenvoudig naast andere Kubernetes-resources kunt beheren.

Zie de KubeRay GitHub-opslagplaats voor meer informatie.

Ray-implementatieproces

Het implementatieproces bestaat uit de volgende stappen:

  1. Gebruik Terraform om een lokaal planbestand te maken om de gewenste status te definiëren voor de vereiste AKS-infrastructuurinfrastructuur die bestaat uit een Azure-resourcegroep, een toegewezen systeemknooppuntgroep en een workloadknooppuntgroep voor Ray met drie knooppunten.
  2. Implementeer een lokaal Terraform-plan in Azure.
  3. Haal output op uit de Terraform-implementatie en verkrijg Kubernetes-referenties voor toegang tot het nieuw uitgerolde AKS-cluster.
  4. Installeer de Helm Ray-opslagplaats en implementeer KubeRay in het AKS-cluster met behulp van Helm.
  5. Download en voer een YamL-manifest van Ray Job uit de opslagplaats met Ray GitHub-voorbeelden uit om een afbeeldingsclassificatie uit te voeren met een MNIST-gegevensset met behulp van Convolutional Neural Networks (CNN's).
  6. Voer de logboeken van de Ray-taak uit om inzicht te krijgen in het machine learning-proces dat door Ray wordt uitgevoerd.

Volgende stap

Medewerkers

Microsoft onderhoudt dit artikel. De volgende inzenders hebben het oorspronkelijk geschreven:

  • Russell de Pina | Principal TPM
  • Ken Kilty | Hoofd TPM
  • Erin Schaffer | Inhoudsontwikkelaar 2
  • Adrian Joian | Hoofdklantingenieur
  • Ryan Graham | Belangrijkste technische specialist