Identifiera Azure Machine Learning-tillgångar

Slutförd

Som dataexpert arbetar du främst med tillgångar på Azure Machine Learning-arbetsytan. Tillgångar skapas och används i olika faser av ett projekt och omfattar:

  • Modeller
  • Miljöer
  • Data
  • Komponenter

Skapa och hantera modeller

Slutprodukten av att träna en modell är själva modellen. Du kan träna maskininlärningsmodeller med olika ramverk, till exempel Scikit-learn eller PyTorch. Ett vanligt sätt att lagra sådana modeller är att paketera modellen som en Python pickle-fil (.pkl tillägg).

Du kan också använda plattformen MLflow med öppen källkod för att lagra din modell i MLModel-format.

Oavsett vilket format du väljer representerar binära filer modellen och eventuella motsvarande metadata. Om du vill spara filerna kan du skapa eller registrera en modell på arbetsytan.

När du skapar en modell på arbetsytan anger du namn och version. Särskilt användbart när du distribuerar den registrerade modellen. Med versionshantering kan du spåra den specifika modell som du vill använda.

Skapa och hantera miljöer

När du arbetar med molnbaserad beräkning är det viktigt att se till att koden körs på alla beräkningar som är tillgängliga för dig. Oavsett om du vill köra ett skript på en beräkningsinstans eller ett beräkningskluster ska koden köras korrekt.

Tänk dig att arbeta i Python eller R med ramverk med öppen källkod för att träna en modell på din lokala enhet. Om du vill använda ett bibliotek som Scikit-learn eller PyTorch måste du installera det på enheten.

När du skriver kod som använder ramverk eller bibliotek måste du också se till att nödvändiga komponenter är installerade på den beräkning som ska köra koden. Om du vill visa en lista över alla nödvändiga krav kan du skapa miljöer. När du skapar en miljö måste du ange namn och version.

Miljöer anger programvarupaket, miljövariabler och programvaruinställningar för att köra skript. En miljö lagras som en avbildning i Azure Container Registry som skapas med arbetsytan när den används för första gången.

När du vill köra ett skript kan du ange den miljö som ska användas av beräkningsmålet. Miljön installerar alla nödvändiga krav på beräkningen innan skriptet körs, vilket gör koden robust och återanvändbar över beräkningsmål.

Skapa och hantera data

Medan datalager innehåller anslutningsinformation till Azure-datalagringstjänster refererar datatillgångar till en specifik fil eller mapp.

Du kan använda datatillgångar för att enkelt komma åt data varje gång, utan att behöva tillhandahålla autentisering varje gång du vill komma åt dem.

När du skapar en datatillgång på arbetsytan anger du sökvägen till filen eller mappen och namnet och versionen.

Skapa och hantera komponenter

Om du vill träna maskininlärningsmodeller skriver du kod. I olika projekt kan det finnas kod som du kan återanvända. I stället för att skriva kod från grunden vill du återanvända kodfragment från andra projekt.

För att göra det enklare att dela kod kan du skapa en komponent på en arbetsyta. Om du vill skapa en komponent måste du ange namnet, versionen, koden och miljön som krävs för att köra koden.

Du kan använda komponenter när du skapar pipelines. En komponent representerar därför ofta ett steg i en pipeline, till exempel för att normalisera data, träna en regressionsmodell eller testa den tränade modellen på en valideringsdatauppsättning.