MLOps (maskininlärningsdrift)

Den här artikeln beskriver tre Azure-arkitekturer för maskininlärningsdrift som har end-to-end CI/CD-pipelines (kontinuerlig integrering och kontinuerlig leverans) och omträningspipelines. Arkitekturerna gäller för dessa AI-program:

Klassisk maskininlärning
Datorsyn (CV)
Bearbetning av naturligt språk

Dessa arkitekturer är produkten av MLOps v2-projektet. De innehåller metodtips som lösningsarkitekter har identifierat i processen med att utveckla olika maskininlärningslösningar. Resultatet är distributionsbara, repeterbara och underhållsbara mönster. Alla tre arkitekturerna använder Azure Machine Learning-tjänsten.

En implementering med exempeldistributionsmallar för MLOps v2 finns i Azure MLOps v2 GitHub-lagringsplats.

Potentiella användningsfall

Klassisk maskininlärning: Prognostisering i tidsserier, regression och klassificering av tabellstrukturerade data är de vanligaste användningsfallen i den här kategorin. Exempel:
- Binär klassificering och klassificering med flera etiketter.
- Linjär, polynom, ås, lasso, quantil och bayesisk regression.
- ARIMA, autoregressiv, SARIMA, VAR, SES, LSTM.
CV: MLOps-ramverket i den här artikeln fokuserar främst på cv-användningsfallen för segmentering och bildklassificering.
Bearbetning av naturligt språk: Du kan använda det här MLOps-ramverket för att implementera:
- Igenkänning av namngiven entitet
- Textklassificering
- Textgenerering
- Sentimentanalys
- Översättning
- Frågor och svar
- Sammanfattning
- Meningsdetektering
- Språkidentifiering
- Ordklassmärkning

AI-simuleringar, djup förstärkningsinlärning och andra former av AI beskrivs inte i den här artikeln.

MLOps som ett viktigt designområde för AI-arbetsbelastningar

Planering och implementering av en MLOps och GenAIOps är ett centralt designområde i AI-arbetsbelastningar i Azure. Information om varför dessa maskininlärningsarbetsbelastningar behöver särskilda åtgärder finns i MLOps och GenAIOps för AI-arbetsbelastningar i Azure i Azure Well-Architected Framework.

Arkitektur

Arkitekturmönstret MLOps v2 har fyra huvudsakliga modulära komponenter, eller faser, i MLOps-livscykeln:

Dataekosystem
Administration och installation
Modellutveckling eller den inre loopfasen
Modelldistribution eller den yttre loopfasen

De föregående komponenterna, anslutningarna mellan dem och de vanliga personas som ingår är standard i alla MLOps v2-scenarioarkitekturer. Variationer i information om varje komponent beror på scenariot.

Basarkitekturen för MLOps v2 för Machine Learning är det klassiska maskininlärningsscenariot för tabelldata. CV- och NLP-arkitekturerna bygger på och ändrar den här basarkitekturen.

MLOps v2 omfattar följande arkitekturer som beskrivs i den här artikeln:

Klassisk maskininlärningsarkitektur
Machine Learning CV-arkitektur
Bearbetningsarkitektur för naturligt språk i Machine Learning

Klassisk maskininlärningsarkitektur

Ladda ned en Visio-fil med den här arkitekturen.

Arbetsflöde för den klassiska maskininlärningsarkitekturen

Dataekosystem

Den här komponenten illustrerar organisationens dataegendom och potentiella datakällor och mål för ett datavetenskapsprojekt. Datatekniker är de främsta ägarna till den här komponenten i MLOps v2-livscykeln. Azure-dataplattformarna i det här diagrammet är inte uttömmande eller normativa. En grön bockmarkering anger de datakällor och mål som representerar rekommenderade metodtips som baseras på kundens användningsfall.
Administration och installation

Den här komponenten är det första steget i distributionen av MLOps v2-lösningen. Den består av alla uppgifter som rör skapande och hantering av resurser och roller som är associerade med projektet. Infrastrukturteamet kan till exempel:
1. Skapa lagringsplatser för projektkällans källkod.
2. Använd Bicep eller Terraform för att skapa Machine Learning-arbetsytor.
3. Skapa eller ändra datauppsättningar och beräkningsresurser för modellutveckling och distribution.
4. Definiera projektteamanvändare, deras roller och åtkomstkontroller till andra resurser.
5. Skapa CI/CD-pipelines.
6. Skapa övervakningskomponenter för att samla in och skapa aviseringar för modell- och infrastrukturmått.
Den primära persona som är associerad med den här fasen är infrastrukturteamet, men en organisation kan också ha datatekniker, maskininlärningstekniker eller dataforskare.
Modellutveckling (inre loopfas)

Den inre loopfasen består av ett iterativt datavetenskapsarbetsflöde som fungerar inom en dedikerad och säker Machine Learning-arbetsyta. Föregående diagram visar ett typiskt arbetsflöde. Processen börjar med datainmatning, går igenom undersökande dataanalys, experimentering, modellutveckling och utvärdering och registrerar sedan en modell för produktionsanvändning. Den här modulära komponenten är agnostisk och anpassningsbar till den process som ditt datavetenskapsteam använder för att utveckla modeller.

Bland de personer som är associerade med den här fasen finns dataforskare och maskininlärningstekniker.
Maskininlärningsregister

När datavetenskapsteamet har utvecklat en modell som de kan distribuera till produktion registrerar de modellen i Machine Learning-arbetsyteregistret. CI-pipelines som utlöses, antingen automatiskt av modellregistrering eller av gated human-in-the-loop-godkännande, höjer upp modellen och eventuella andra modellberoenden till modelldistributionsfasen.

Personer som är associerade med den här fasen är vanligtvis maskininlärningstekniker.
Modelldistribution (yttre loopfas)

Modelldistributionen, eller den yttre slingan, består av uppställning och testning av förproduktion, produktleverans och övervakning av modellen, data och infrastrukturen. När modellen uppfyller kriterierna för organisationen och användningsfallet höjer CD-pipelines upp modellen och relaterade tillgångar genom produktion, övervakning och potentiell omträning.

Personer som är associerade med den här fasen är främst maskininlärningstekniker.
Mellanlagring och test

Mellanlagrings- och testfasen varierar beroende på kundpraxis. Den här fasen omfattar vanligtvis åtgärder som omträning och testning av modellkandidaten på produktionsdata, testdistributioner för slutpunktsprestanda, datakvalitetskontroller, enhetstestning och ansvarsfulla AI-kontroller för modell- och datafördomar. Den här fasen äger rum på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Produktionsdistribution

När en modell har klarat mellanlagrings- och testfasen kan maskininlärningstekniker använda människostyrt godkännande för att förflytta den till produktion. Alternativen för modelldistribution omfattar en hanterad batchslutpunkt för batchscenarier eller antingen en hanterad onlineslutpunkt eller Kubernetes-distribution som använder Azure Arc för onlinescenarier i nära realtid. Produktionen sker vanligtvis på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Övervakning

Maskininlärningstekniker övervakar komponenter i mellanlagring, testning och produktion för att samla in mått relaterade till ändringar i prestanda för modellen, data och infrastruktur. De kan använda dessa mått för att vidta åtgärder. Modell- och dataövervakning kan omfatta kontroll av modell- och dataavvikelser, modellprestanda för nya data och ansvarsfulla AI-problem. Infrastrukturövervakning kan identifiera långsamma svar på slutpunkter, otillräcklig beräkningskapacitet eller nätverksproblem.
Data- och modellövervakning: händelser och åtgärder

Baserat på modell- och datakriterier, till exempel måtttrösklar eller scheman, kan automatiserade utlösare och meddelanden implementera lämpliga åtgärder att vidta. En utlösare kan till exempel träna om en modell för att använda nya produktionsdata och sedan skickas modellen tillbaka till förberedande miljö och testning för en utvärdering före produktion. Eller så kan ett modell- eller dataproblem utlösa en åtgärd som kräver en loopback till modellutvecklingsfasen där dataforskare kan undersöka problemet och eventuellt utveckla en ny modell.
Infrastrukturövervakning: händelser och åtgärder

Automatiserade utlösare och meddelanden kan implementera lämpliga åtgärder som ska utföras baserat på infrastrukturkriterier, till exempel svarsfördröjning för slutpunkter eller otillräcklig beräkning för distributionen. Automatiska utlösare och meddelanden kan utlösa en loopback till installations- och administrationsfasen där infrastrukturteamet kan undersöka problemet och eventuellt konfigurera om beräknings- och nätverksresurserna.

Machine Learning CV-arkitektur

Ladda ned en Visio-fil med den här arkitekturen.

Arbetsflöde för CV-arkitekturen

Machine Learning CV-arkitekturen baseras på den klassiska maskininlärningsarkitekturen, men den har ändringar som är specifika för övervakade CV-scenarier.

Dataekosystem

Den här komponenten visar organisationens dataegendom och potentiella datakällor och mål för ett datavetenskapsprojekt. Dataingenjörer är de främsta ägarna till den här komponenten i MLOps v2-livscykeln. Azure-dataplattformarna i det här diagrammet är inte uttömmande eller normativa. Bilder för CV-scenarier kan komma från olika datakällor. För effektivitet när du utvecklar och distribuerar CV-modeller med Machine Learning rekommenderar vi Azure Blob Storage och Azure Data Lake Storage.
Administration och installation

Den här komponenten är det första steget i MLOps v2-distributionen. Den består av alla uppgifter som rör skapande och hantering av resurser och roller som är associerade med projektet. För CV-scenarier är administration och installation av MLOps v2-miljön i stort sett densamma som för klassisk maskininlärning, men innehåller ett extra steg. Infrastrukturteamet använder märkningsfunktionen i Machine Learning eller ett annat verktyg för att skapa bildetiketter och anteckningsprojekt.
Modellutveckling (inre loopfas)

Den inre loopfasen består av ett iterativt datavetenskapsarbetsflöde som utförs på en dedikerad och säker Machine Learning-arbetsyta. Den främsta skillnaden mellan det här arbetsflödet och det klassiska maskininlärningsscenariot är att bildetiketter och anteckningar är en viktig komponent i den här utvecklingsloopen.
Maskininlärningsregister

När datavetenskapsteamet har utvecklat en modell som de kan distribuera till produktion registrerar de modellen i Machine Learning-arbetsyteregistret. CI-pipelines som utlöses automatiskt av modellregistrering eller av gated human-in-the-loop-godkännande höjer upp modellen och eventuella andra modellberoenden till modelldistributionsfasen.
Modelldistribution (yttre loopfas)

Modellimplementeringen eller den yttre loop-fasen består av förberedande staging och testning, produktionssättning och övervakning av modellen, data och infrastruktur. När modellen uppfyller kriterierna för organisationen och användningsfallet höjer CD-pipelines upp modellen och relaterade tillgångar genom produktion, övervakning och potentiell omträning.
Mellanlagring och test

Mellanlagrings- och testfasen varierar beroende på kundpraxis. Den här fasen omfattar vanligtvis åtgärder som testdistributioner för slutpunktsprestanda, datakvalitetskontroller, enhetstestning och ansvarsfulla AI-kontroller för modell- och datafördomar. För CV-scenarier behöver maskininlärningstekniker inte träna om modellkandidaten för produktionsdata på grund av resurs- och tidsbegränsningar. Data science-teamet kan i stället använda produktionsdata för modellutveckling. Den kandidatmodell som registrerats från utvecklingsloopen utvärderas för produktion. Den här fasen äger rum på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Produktionsdistribution

När en modell har klarat mellanlagrings- och testfasen kan maskininlärningstekniker använda människostyrt godkännande för att förflytta den till produktion. Alternativen för modelldistribution omfattar en hanterad batchslutpunkt för batchscenarier eller antingen en hanterad onlineslutpunkt eller Kubernetes-distribution som använder Azure Arc för onlinescenarier i nära realtid. Produktionen sker vanligtvis på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Övervakning

Maskininlärningstekniker övervakar komponenter i mellanlagring, testning och produktion för att samla in mått relaterade till ändringar i prestanda för modellen, data och infrastruktur. De kan använda dessa mått för att vidta åtgärder. Modell- och dataövervakning kan omfatta kontroll av modellprestanda på nya avbildningar. Infrastrukturövervakning kan identifiera långsamma svar på slutpunkter, otillräcklig beräkningskapacitet eller nätverksproblem.
Data- och modellövervakning: händelser och åtgärder

Data- och modellövervaknings- och händelse- och åtgärdsfaserna i MLOps för bearbetning av naturligt språk är de viktigaste skillnaderna från klassisk maskininlärning. Automatiserad omträning görs vanligtvis inte i CV-scenarier när modellprestandaförsämring på nya bilder identifieras. I det här fallet är en human-in-the-loop-process nödvändig för att granska och kommentera nya bilder för modellen som presterar dåligt. Nästa åtgärd går ofta tillbaka till modellutvecklingsloopen för att uppdatera modellen med de nya bilderna.
Infrastrukturövervakning: händelser och åtgärder

Automatiserade utlösare och meddelanden kan implementera lämpliga åtgärder som ska utföras baserat på infrastrukturkriterier, till exempel svarsfördröjning för slutpunkter eller otillräcklig beräkning för distributionen. Automatiska utlösare och meddelanden kan utlösa en loopback till installations- och administrationsfasen där infrastrukturteamet kan undersöka problemet och eventuellt konfigurera om miljö-, beräknings- och nätverksresurser.

Bearbetningsarkitektur för naturligt språk i Machine Learning

Ladda ned en Visio-fil med den här arkitekturen.

Arbetsflöde för arkitekturen för bearbetning av naturligt språk

Maskininlärningsarkitekturen för bearbetning av naturligt språk baseras på den klassiska maskininlärningsarkitekturen, men den har vissa ändringar som är specifika för NLP-scenarier.

Dataekosystem

Den här komponenten visar organisationens dataegendom och potentiella datakällor och mål för ett datavetenskapsprojekt. Dataingenjörer är de främsta ägarna till den här komponenten i MLOps v2-livscykeln. Azure-dataplattformarna i det här diagrammet är inte uttömmande eller normativa. En grön bockmarkering anger källor och mål som representerar rekommenderade metodtips som baseras på kundens användningsfall.
Administration och installation

Den här komponenten är det första steget i MLOps v2-distributionen. Den består av alla uppgifter som rör skapande och hantering av resurser och roller som är associerade med projektet. För scenarier med bearbetning av naturligt språk är administration och konfiguration av MLOps v2-miljön i stort sett densamma som för klassisk maskininlärning, men med ett extra steg: skapa textetikett- och anteckningsprojekt med hjälp av etikettfunktionen i Machine Learning eller något annat verktyg.
Modellutveckling (inre loopfas)

Den inre loopfasen består av ett iterativt datavetenskapsarbetsflöde som utförs på en dedikerad och säker Machine Learning-arbetsyta. Den typiska NLP-modellutvecklingsloopen skiljer sig från det klassiska maskininlärningsscenariot eftersom de typiska utvecklingsstegen för det här scenariot inkluderar anteckningar för meningar och tokenisering, normalisering och inbäddningar för textdata.
Maskininlärningsregister

När datavetenskapsteamet har utvecklat en modell som de kan distribuera till produktion registrerar de modellen i Machine Learning-arbetsyteregistret. CI-pipelines som utlöses automatiskt av modellregistrering eller av gated human-in-the-loop-godkännande höjer upp modellen och eventuella andra modellberoenden till modelldistributionsfasen.
Modelldistribution (yttre loopfas)

Modellimplementeringen eller den yttre loop-fasen består av förberedande staging och testning, produktionssättning och övervakning av modellen, data och infrastruktur. När modellen uppfyller kriterierna för organisationen och användningsfallet höjer CD-pipelines upp modellen och relaterade tillgångar genom produktion, övervakning och potentiell omträning.
Mellanlagring och test

Mellanlagrings- och testfasen varierar beroende på kundpraxis. Den här fasen omfattar vanligtvis åtgärder som omträning och testning av modellkandidaten på produktionsdata, testdistributioner för slutpunktsprestanda, datakvalitetskontroller, enhetstestning och ansvarsfulla AI-kontroller för modell- och datafördomar. Den här fasen äger rum på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Produktionsdistribution

När en modell har klarat mellanlagrings- och testfasen kan maskininlärningstekniker använda människostyrt godkännande för att förflytta den till produktion. Alternativen för modelldistribution omfattar en hanterad batchslutpunkt för batchscenarier eller antingen en hanterad onlineslutpunkt eller Kubernetes-distribution som använder Azure Arc för onlinescenarier i nära realtid. Produktionen sker vanligtvis på en eller flera dedikerade och säkra Machine Learning-arbetsytor.
Övervakning

Maskininlärningstekniker övervakar komponenter i mellanlagring, testning och produktion för att samla in mått relaterade till ändringar i prestanda för modellen, data och infrastruktur. De kan använda dessa mått för att vidta åtgärder. Modell- och dataövervakning kan omfatta kontroll av modell- och dataavvikelser, modellprestanda för nya textdata och ansvarsfulla AI-problem. Infrastrukturövervakning kan identifiera problem, till exempel långsamma slutpunktssvar, otillräcklig beräkningskapacitet och nätverksproblem.
Data- och modellövervakning: händelser och åtgärder

Precis som med CV-arkitekturen är data- och modellövervaknings- och händelse- och åtgärdsfaserna i MLOps för bearbetning av naturligt språk de viktigaste skillnaderna från klassisk maskininlärning. Automatiserad omträning utförs vanligtvis inte i scenarier med bearbetning av naturligt språk när modellprestandaförsämring på ny text identifieras. I det här fallet är en process med mänsklig medverkan nödvändig för att granska och annotera nya textdata för modellen som presterar dåligt. Nästa åtgärd är ofta att gå tillbaka till modellutvecklingsloopen för att uppdatera modellen med nya textdata.
Infrastrukturövervakning: händelser och åtgärder

Automatiserade utlösare och meddelanden kan implementera lämpliga åtgärder som ska utföras baserat på infrastrukturkriterier, till exempel svarsfördröjning för slutpunkter eller otillräcklig beräkning för distributionen. Automatiska utlösare och meddelanden kan utlösa en loopback till installations- och administrationsfasen där infrastrukturteamet kan undersöka problemet och eventuellt konfigurera om beräknings- och nätverksresurser.

Komponenter

Machine Learning är en molntjänst som du kan använda för att träna, poängsätta, distribuera och hantera maskininlärningsmodeller i stor skala. I den här arkitekturen är det den primära plattformen för modellutveckling, distribution, övervakning och hantering under hela MLOps-livscykeln.
Azure Pipelines är ett bygg- och testsystem som baseras på Azure DevOps och används för bygg- och versionspipelines. Azure Pipelines delar upp dessa pipelines i logiska steg som kallas uppgifter. I den här arkitekturen automatiserar och hanterar den CI/CD-arbetsflöden för att säkerställa konsekvent distribution och testning av maskininlärningslösningar.
GitHub är en kodvärdplattform. I den här arkitekturen är GitHub den centrala lagringsplatsen för källkod, versionskontroll och samarbete. Den integreras med CI/CD-pipelines för automatisering.
Azure Arc är en plattform som använder Azure Resource Manager för att hantera Azure-resurser och lokala resurser. Resurserna kan innehålla virtuella datorer, Kubernetes-kluster och databaser. I den här arkitekturen tillhandahåller Azure Arc enhetlig hantering och styrning för hybrid- och flermolnsmiljöer för maskininlärning.
Kubernetes är ett system med öppen källkod som du kan använda för att automatisera distribution, skalning och hantering av containerbaserade program. I den här arkitekturen dirigerar Kubernetes arbetsbelastningar för maskininlärning i containrar för att möjliggöra skalbara, effektiva och motståndskraftiga distributioner.
Azure Data Lake Storage är ett Hadoop-kompatibelt filsystem. Den har ett integrerat hierarkiskt namnområde och Blob Storages enorma skala och kostnadseffektivitet. I den här arkitekturen lagrar och hanterar den stora mängder strukturerade och ostrukturerade data för arbetsflöden för maskininlärning.
Microsoft Fabric är en enhetlig plattform som kan uppfylla organisationens data- och analysbehov. I den här arkitekturen underlättar Fabric dataintegrering, förberedelse och analys från slutpunkt till slutpunkt för att stödja dataegendomskomponenten i MLOps.
Azure Event Hubs är en tjänst som matar in dataströmmar som klientprogram genererar. I den här arkitekturen matar Event Hubs in och lagrar strömmande realtidsdata för att möjliggöra datainsamling och analys för maskininlärningspipelines. Kunder kan ansluta till hubbslutpunkterna för att hämta meddelanden för bearbetning. Den här arkitekturen använder Data Lake Storage-integrering.

Övriga beaktanden

Det föregående arkitekturmönstret MLOps v2 har flera viktiga komponenter, inklusive Azure RBAC som överensstämmer med affärsintressenter, effektiv pakethantering och robusta övervakningsmekanismer. Dessa komponenter bidrar tillsammans till en lyckad implementering och hantering av maskininlärningsarbetsflöden.

Persona-baserad Azure RBAC

Det är viktigt att du hanterar åtkomsten till maskininlärningsdata och resurser. Azure RBAC tillhandahåller ett robust ramverk som hjälper dig att hantera vem som kan utföra specifika åtgärder och få åtkomst till specifika områden i din lösning. Utforma din strategi för identitetssegmentering så att den överensstämmer med livscykeln för maskininlärningsmodeller i Machine Learning och de personer som ingår i processen. Varje persona har en specifik uppsättning ansvarsområden som återspeglas i deras Azure RBAC-roller och gruppmedlemskap.

Exempelpersonas

För att stödja lämplig segmentering i en maskininlärningsarbetsbelastning bör du överväga följande vanliga personer som informerar den identitetsbaserade Azure RBAC-gruppdesignen .

Dataforskare och maskininlärningstekniker

Dataforskare och maskininlärningstekniker utför olika maskininlärnings- och datavetenskapsaktiviteter under ett projekts livscykel för programvaruutveckling. Deras uppgifter omfattar undersökande dataanalys och förbearbetning av data. Dataforskare och maskininlärningstekniker ansvarar för utbildning, utvärdering och distribution av modeller. Dessa rollers ansvarsområden omfattar även break-fix-aktiviteter för maskininlärningsmodeller, paket och data. Dessa uppgifter ligger utanför omfånget för plattformens tekniska supportteam.