Machine learning-bewerkingen

Artikel
07/16/2024

In dit artikel worden drie Azure-architecturen beschreven voor machine learning-bewerkingen met end-to-end CI/CD-pijplijnen (continue integratie en continue levering) en hertraining van pijplijnen. De architecturen zijn voor deze AI-toepassingen:

Klassieke machine learning
Computer Vision (CV)
Natuurlijke taalverwerking

Deze architecturen zijn het product van het MLOps v2-project. Ze bevatten best practices die oplossingsarchitecten hebben geïdentificeerd tijdens het ontwikkelen van verschillende machine learning-oplossingen. Het resultaat is implementeerbare, herhaalbare en onderhoudbare patronen. Alle drie de architecturen maken gebruik van de Azure Machine Learning-service.

Zie de GitHub-opslagplaats van Azure MLOps v2 voor een implementatie met voorbeeldimplementatiesjablonen voor MLOps v2.

Potentiële gebruikscases

Klassieke machine learning: tijdreeksprognoses, regressie en classificatie voor gestructureerde gegevens in tabelvorm zijn de meest voorkomende use cases in deze categorie. Voorbeelden zijn:
- Binaire en multilabelclassificatie.
- Lineaire, polynomiale, ridge, lasso, quantile en Bayesiaanse regressie.
- ARIMA, autoregressief, SARIMA, VAR, SES, LSTM.
CV: Het MLOps-framework in dit artikel richt zich voornamelijk op de CV-use cases van segmentatie en afbeeldingsclassificatie.
Verwerking van natuurlijke taal: u kunt dit MLOps-framework gebruiken om het volgende te implementeren:
- Herkenning van benoemde entiteiten:
- Tekstclassificatie
- Tekst genereren
- Sentimentanalyse
- Vertaling
- Vragen beantwoorden
- Samenvatting
- Zinsdetectie
- Taaldetectie
- Woordsoorten taggen

AI-simulaties, deep reinforcement learning en andere vormen van AI worden niet beschreven in dit artikel.

Architectuur

Het architectuurpatroon MLOps v2 heeft vier belangrijke modulaire onderdelen of fasen van de MLOps-levenscyclus:

Gegevensdomein
Beheer en installatie
Modelontwikkeling of de binnenste lusfase
Modelimplementatie of de fase van de buitenste lus

De voorgaande onderdelen, de verbindingen tussen deze onderdelen en de typische persona's zijn standaard voor alle MLOps v2-scenarioarchitecturen. Variaties in de details van elk onderdeel zijn afhankelijk van het scenario.

De basisarchitectuur voor MLOps v2 voor Machine Learning is het klassieke machine learning-scenario voor gegevens in tabelvorm. De CV- en NLP-architecturen bouwen voort op deze basisarchitectuur en passen deze basisarchitectuur aan.

MLOps v2 behandelt de volgende architecturen die in dit artikel worden beschreven:

Klassieke machine learning-architectuur
Machine Learning CV-architectuur
Architectuur voor verwerking van natuurlijke taal in Machine Learning

Klassieke machine learning-architectuur

Een Visio-bestand van deze architectuur downloaden.

Werkstroom voor de klassieke machine learning-architectuur

Gegevensdomein

Dit onderdeel illustreert het gegevensdomein van de organisatie en mogelijke gegevensbronnen en doelen voor een data science-project. Data engineers zijn de primaire eigenaren van dit onderdeel van de mlOps v2-levenscyclus. De Azure-gegevensplatforms in dit diagram zijn niet volledig of prescriptief. Een groen vinkje geeft de gegevensbronnen en doelen aan die aanbevolen aanbevolen procedures vertegenwoordigen die zijn gebaseerd op de use-case van de klant.
Beheer en installatie

Dit onderdeel is de eerste stap in de implementatie van de MLOps v2-oplossing. Het bestaat uit alle taken met betrekking tot het maken en beheren van resources en rollen die aan het project zijn gekoppeld. Het infrastructuurteam kan bijvoorbeeld het volgende doen:
1. Maak opslagplaatsen voor projectbroncode.
2. Gebruik Bicep of Terraform om Machine Learning-werkruimten te maken.
3. Gegevenssets en rekenresources maken of wijzigen voor modelontwikkeling en -implementatie.
4. Definieer projectteamgebruikers, hun rollen en toegangsbeheer voor andere resources.
5. CI/CD-pijplijnen maken.
6. Maak bewakingsonderdelen voor het verzamelen en maken van waarschuwingen voor metrische gegevens van modellen en infrastructuur.
De primaire persona die aan deze fase is gekoppeld, is het infrastructuurteam, maar een organisatie kan ook gegevenstechnici, machine learning-engineers of gegevenswetenschappers hebben.
Modelontwikkeling (interne lusfase)

De binnenste lusfase bestaat uit een iteratieve data science-werkstroom die werkt binnen een toegewezen en beveiligde Machine Learning-werkruimte. In het voorgaande diagram ziet u een typische werkstroom. Het proces begint met gegevensopname, gaat door verkennende gegevensanalyse, experimenten, modelontwikkeling en -evaluatie en registreert vervolgens een model voor productiegebruik. Dit modulaire onderdeel is agnostisch en kan worden aangepast aan het proces dat uw data science-team gebruikt om modellen te ontwikkelen.

Persona's die aan deze fase zijn gekoppeld, zijn gegevenswetenschappers en machine learning-engineers.
Machine Learning-registers

Nadat het data science-team een model heeft ontwikkeld dat ze in productie kunnen implementeren, registreren ze het model in het machine learning-werkruimteregister. CI-pijplijnen die automatisch worden geactiveerd door modelregistratie of door gated human-in-the-loop goedkeuring, promoveren het model en eventuele andere modelafhankelijkheden naar de fase van de modelimplementatie.

Persona's die aan deze fase zijn gekoppeld, zijn doorgaans machine learning-technici.
Modelimplementatie (fase buitenste lus)

De modelimplementatie, of de buitenste lusfase, bestaat uit fasering en testen van preproductie, productie-implementatie en bewaking van het model, de gegevens en de infrastructuur. Wanneer het model voldoet aan de criteria van de organisatie en use-case, promoten CD-pijplijnen het model en gerelateerde assets via productie, bewaking en potentiële hertraining.

Persona's die aan deze fase zijn gekoppeld, zijn voornamelijk machine learning-technici.
Fasering en test

De faserings- en testfase varieert afhankelijk van de klantprocedures. Deze fase omvat doorgaans bewerkingen zoals opnieuw trainen en testen van de modelkandidaat op productiegegevens, testimplementaties voor eindpuntprestaties, controles van gegevenskwaliteit, eenheidstests en verantwoorde AI-controles op model- en gegevensvooroordelen. Deze fase vindt plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Productie-implementatie

Nadat een model de faserings- en testfase heeft doorgegeven, kunnen machine learning-technici goedkeuring door mensen in de lus gebruiken om deze te promoveren naar productie. Modelimplementatieopties omvatten een beheerd batch-eindpunt voor batchscenario's of een beheerd online-eindpunt of Kubernetes-implementatie die gebruikmaakt van Azure Arc voor online, bijna realtime scenario's. De productie vindt doorgaans plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Controleren

Machine learning-technici bewaken onderdelen in fasering, testen en productie om metrische gegevens te verzamelen met betrekking tot wijzigingen in de prestaties van het model, de gegevens en de infrastructuur. Ze kunnen deze metrische gegevens gebruiken om actie te ondernemen. Model- en gegevensbewaking kan bestaan uit het controleren op model- en gegevensdrift, modelprestaties op nieuwe gegevens en verantwoorde AI-problemen. Infrastructuurbewaking kan duiden op trage eindpuntreacties, onvoldoende rekencapaciteit of netwerkproblemen.
Bewaking van gegevens en modellen: gebeurtenissen en acties

Op basis van model- en gegevenscriteria, zoals metrische drempelwaarden of planningen, kunnen geautomatiseerde triggers en meldingen de juiste acties implementeren die moeten worden uitgevoerd. Een trigger kan bijvoorbeeld een model opnieuw trainen om nieuwe productiegegevens te gebruiken en vervolgens loopback van het model naar fasering en testen voor een preproductie-evaluatie. Of een model- of gegevensprobleem kan een actie activeren waarvoor een loopback naar de fase voor modelontwikkeling is vereist, waarbij gegevenswetenschappers het probleem kunnen onderzoeken en mogelijk een nieuw model kunnen ontwikkelen.
Bewaking van infrastructuur: gebeurtenissen en acties

Geautomatiseerde triggers en meldingen kunnen de juiste acties implementeren die moeten worden uitgevoerd op basis van infrastructuurcriteria, zoals een vertraging van een eindpuntreactie of onvoldoende rekenkracht voor de implementatie. Automatische triggers en meldingen kunnen een loopback activeren naar de installatie- en beheerfase, waarbij het infrastructuurteam het probleem kan onderzoeken en de reken- en netwerkresources mogelijk opnieuw kan configureren.

Machine Learning CV-architectuur

Een Visio-bestand van deze architectuur downloaden.

Werkstroom voor de CV-architectuur

De Machine Learning CV-architectuur is gebaseerd op de klassieke machine learning-architectuur, maar heeft wijzigingen die specifiek zijn voor CV-scenario's onder supervisie.

Gegevensdomein

Dit onderdeel demonstreert het gegevensdomein van de organisatie en mogelijke gegevensbronnen en doelen voor een data science-project. Data engineers zijn de primaire eigenaren van dit onderdeel in de levenscyclus van MLOps v2. De Azure-gegevensplatforms in dit diagram zijn niet volledig of prescriptief. Afbeeldingen voor CV-scenario's kunnen afkomstig zijn van verschillende gegevensbronnen. Voor efficiëntie bij het ontwikkelen en implementeren van CV-modellen met Machine Learning raden we Azure Blob Storage en Azure Data Lake Storage aan.
Beheer en installatie

Dit onderdeel is de eerste stap in de MLOps v2-implementatie. Het bestaat uit alle taken met betrekking tot het maken en beheren van resources en rollen die aan het project zijn gekoppeld. Voor CV-scenario's is het beheer en de installatie van de MLOps v2-omgeving grotendeels hetzelfde als voor klassieke machine learning, maar bevat een extra stap. Het infrastructuurteam maakt gebruik van de labelfunctie van Machine Learning of een ander hulpprogramma voor het maken van afbeeldingslabels en aantekeningenprojecten.
Modelontwikkeling (interne lusfase)

De binnenste lusfase bestaat uit een iteratieve data science-werkstroom die wordt uitgevoerd in een toegewezen en beveiligde Machine Learning-werkruimte. Het belangrijkste verschil tussen deze werkstroom en het klassieke machine learning-scenario is dat het labelen en aantekenen van afbeeldingen een belangrijk onderdeel van deze ontwikkelingslus is.
Machine Learning-registers

Nadat het data science-team een model heeft ontwikkeld dat ze in productie kunnen implementeren, registreren ze het model in het machine learning-werkruimteregister. CI-pijplijnen die automatisch worden geactiveerd door modelregistratie of door gated human-in-the-loop goedkeuring bevorderen het model en eventuele andere modelafhankelijkheden voor de implementatiefase van het model.
Modelimplementatie (fase buitenste lus)

De fase van de modelimplementatie of buitenste lus bestaat uit fasering en testen van preproductie, productie-implementatie en bewaking van het model, de gegevens en de infrastructuur. Wanneer het model voldoet aan de criteria van de organisatie en use-case, promoten CD-pijplijnen het model en gerelateerde assets via productie, bewaking en potentiële hertraining.
Fasering en test

De faserings- en testfase varieert afhankelijk van de klantprocedures. Deze fase omvat doorgaans bewerkingen zoals testimplementaties voor eindpuntprestaties, controles van gegevenskwaliteit, eenheidstests en verantwoorde AI-controles op model- en gegevensvooroordelen. Voor CV-scenario's hoeven machine learning-technici de modelkandidaat niet opnieuw te trainen op productiegegevens vanwege resource- en tijdbeperkingen. Het data science-team kan in plaats daarvan productiegegevens gebruiken voor modelontwikkeling. Het kandidaatmodel dat is geregistreerd vanuit de ontwikkelingslus, wordt geëvalueerd voor productie. Deze fase vindt plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Productie-implementatie

Nadat een model de faserings- en testfase heeft doorgegeven, kunnen machine learning-technici goedkeuring door mensen in de lus gebruiken om deze te promoveren naar productie. Modelimplementatieopties omvatten een beheerd batch-eindpunt voor batchscenario's of een beheerd online-eindpunt of Kubernetes-implementatie die gebruikmaakt van Azure Arc voor online, bijna realtime scenario's. De productie vindt doorgaans plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Controleren

Machine learning-technici bewaken onderdelen in fasering, testen en productie om metrische gegevens te verzamelen met betrekking tot wijzigingen in de prestaties van het model, de gegevens en de infrastructuur. Ze kunnen deze metrische gegevens gebruiken om actie te ondernemen. Model- en gegevensbewaking kan bestaan uit het controleren op modelprestaties op nieuwe installatiekopieën. Infrastructuurbewaking kan duiden op trage eindpuntreacties, onvoldoende rekencapaciteit of netwerkproblemen.
Bewaking van gegevens en modellen: gebeurtenissen en acties

De gegevens- en modelbewakings- en gebeurtenis- en actiefasen van MLOps voor verwerking in natuurlijke taal zijn de belangrijkste verschillen van klassieke machine learning. Automatische hertraining wordt doorgaans niet uitgevoerd in CV-scenario's wanneer prestatievermindering van modellen op nieuwe installatiekopieën wordt gedetecteerd. In dit geval is een human-in-the-loop-proces nodig om nieuwe tekstgegevens te controleren en aantekeningen te maken voor het model dat slecht presteert. De volgende actie gaat vaak terug naar de ontwikkelingslus van het model om het model bij te werken met de nieuwe installatiekopieën.
Bewaking van infrastructuur: gebeurtenissen en acties

Geautomatiseerde triggers en meldingen kunnen de juiste acties implementeren die moeten worden uitgevoerd op basis van infrastructuurcriteria, zoals een vertraging van een eindpuntreactie of onvoldoende rekenkracht voor de implementatie. Automatische triggers en meldingen kunnen een loopback activeren naar de installatie- en beheerfase, waar het infrastructuurteam het probleem kan onderzoeken en mogelijk de omgeving, berekening en netwerkresources opnieuw kan configureren.

Architectuur voor verwerking van natuurlijke taal in Machine Learning

Een Visio-bestand van deze architectuur downloaden.

Werkstroom voor de verwerkingsarchitectuur voor natuurlijke taal

De machine learning-architectuur voor verwerking van natuurlijke taal is gebaseerd op de klassieke machine learning-architectuur, maar er zijn enkele wijzigingen die specifiek zijn voor NLP-scenario's.

Gegevensdomein

Dit onderdeel demonstreert de gegevens van de organisatie en mogelijke gegevensbronnen en doelen voor een data science-project. Data engineers zijn de primaire eigenaren van dit onderdeel in de levenscyclus van MLOps v2. De Azure-gegevensplatforms in dit diagram zijn niet volledig of prescriptief. Een groen vinkje geeft bronnen en doelen aan die aanbevolen best practices vertegenwoordigen die zijn gebaseerd op de use-case van de klant.
Beheer en installatie

Dit onderdeel is de eerste stap in de MLOps v2-implementatie. Het bestaat uit alle taken met betrekking tot het maken en beheren van resources en rollen die aan het project zijn gekoppeld. Voor scenario's voor verwerking van natuurlijke taal is het beheer en de installatie van de MLOps v2-omgeving grotendeels hetzelfde als voor klassieke machine learning, maar met een extra stap: het maken van afbeeldingslabels en aantekeningenprojecten met behulp van de labelfunctie van Machine Learning of een ander hulpprogramma.
Modelontwikkeling (interne lusfase)

De binnenste lusfase bestaat uit een iteratieve data science-werkstroom die wordt uitgevoerd in een toegewezen en beveiligde Machine Learning-werkruimte. De typische ontwikkelingslus voor NLP-modellen verschilt van het klassieke machine learning-scenario, omdat de typische ontwikkelingsstappen voor dit scenario annotators voor zinnen en tokenisatie, normalisatie en insluitingen voor tekstgegevens bevatten.
Machine Learning-registers

Nadat het data science-team een model heeft ontwikkeld dat ze in productie kunnen implementeren, registreren ze het model in het machine learning-werkruimteregister. CI-pijplijnen die automatisch worden geactiveerd door modelregistratie of door gated human-in-the-loop goedkeuring bevorderen het model en eventuele andere modelafhankelijkheden voor de implementatiefase van het model.
Modelimplementatie (fase buitenste lus)

De fase van de modelimplementatie of buitenste lus bestaat uit fasering en testen van preproductie, productie-implementatie en bewaking van het model, de gegevens en de infrastructuur. Wanneer het model voldoet aan de criteria van de organisatie en use-case, promoten CD-pijplijnen het model en gerelateerde assets via productie, bewaking en potentiële hertraining.
Fasering en test

De faserings- en testfase varieert afhankelijk van de klantprocedures. Deze fase omvat doorgaans bewerkingen zoals opnieuw trainen en testen van de modelkandidaat op productiegegevens, testimplementaties voor eindpuntprestaties, controles van gegevenskwaliteit, eenheidstests en verantwoorde AI-controles op model- en gegevensvooroordelen. Deze fase vindt plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Productie-implementatie

Nadat een model de faserings- en testfase heeft doorgegeven, kunnen machine learning-technici goedkeuring door mensen in de lus gebruiken om deze te promoveren naar productie. Modelimplementatieopties omvatten een beheerd batch-eindpunt voor batchscenario's of een beheerd online-eindpunt of Kubernetes-implementatie die gebruikmaakt van Azure Arc voor online, bijna realtime scenario's. De productie vindt doorgaans plaats in een of meer toegewezen en beveiligde Machine Learning-werkruimten.
Controleren

Machine learning-technici bewaken onderdelen in fasering, testen en productie om metrische gegevens te verzamelen met betrekking tot wijzigingen in de prestaties van het model, de gegevens en de infrastructuur. Ze kunnen deze metrische gegevens gebruiken om actie te ondernemen. Model- en gegevensbewaking kan bestaan uit het controleren op model- en gegevensdrift, modelprestaties voor nieuwe tekstgegevens en verantwoorde AI-problemen. Infrastructuurbewaking kan problemen identificeren, zoals trage reactie op eindpunten, onvoldoende rekencapaciteit en netwerkproblemen.
Bewaking van gegevens en modellen: gebeurtenissen en acties

Net als bij de CV-architectuur zijn de gegevens- en modelbewakings- en gebeurtenis- en actiefasen van MLOps voor verwerking in natuurlijke taal de belangrijkste verschillen van klassieke machine learning. Geautomatiseerde hertraining wordt meestal niet uitgevoerd in scenario's voor verwerking van natuurlijke taal wanneer modelprestaties worden gedetecteerd voor nieuwe tekst. In dit geval is een human-in-the-loop-proces nodig om nieuwe tekstgegevens te controleren en aantekeningen te maken voor het model dat slecht presteert. Vaak gaat de volgende actie terug naar de ontwikkelingslus van het model om het model bij te werken met de nieuwe tekstgegevens.
Bewaking van infrastructuur: gebeurtenissen en acties

Geautomatiseerde triggers en meldingen kunnen de juiste acties implementeren die moeten worden uitgevoerd op basis van infrastructuurcriteria, zoals een vertraging van een eindpuntreactie of onvoldoende rekenkracht voor de implementatie. Automatische triggers en meldingen kunnen een loopback activeren naar de installatie- en beheerfase, waar het infrastructuurteam het probleem kan onderzoeken en reken- en netwerkresources mogelijk opnieuw kan configureren.

Onderdelen

Machine Learning is een cloudservice die u kunt gebruiken om machine learning-modellen op schaal te trainen, beoordelen, implementeren en beheren.
Azure Pipelines is een build-and-testsysteem dat is gebaseerd op Azure DevOps en wordt gebruikt voor build- en release-pijplijnen. Met Azure Pipelines worden deze pijplijnen gesplitst in logische stappen die taken worden genoemd.
GitHub is een platform voor het hosten van code voor versiebeheer, samenwerking en CI/CD-werkstromen.
Azure Arc is een platform dat Gebruikmaakt van Azure Resource Manager voor het beheren van Azure-resources en on-premises resources. De resources kunnen virtuele machines, Kubernetes-clusters en databases bevatten.
Kubernetes is een opensource-systeem dat u kunt gebruiken om de implementatie, schaalaanpassing en het beheer van toepassingen in containers te automatiseren.
Azure Data Lake Storage is een met Hadoop compatibel bestandssysteem. Het heeft een geïntegreerde hiërarchische naamruimte en de enorme schaal en economie van Blob Storage.
Azure Synapse Analytics is een onbeperkte analyseservice die gegevensintegratie, zakelijke datawarehousing en big data-analyses combineert.
Azure Event Hubs is een service die gegevensstromen opneemt die clienttoepassingen genereren. Vervolgens worden streaminggegevens opgenomen en opgeslagen, waardoor de volgorde van ontvangen gebeurtenissen behouden blijft. Klanten kunnen verbinding maken met de hub-eindpunten om berichten op te halen voor verwerking. Deze architectuur maakt gebruik van Data Lake Storage-integratie.

Andere overwegingen

Het voorgaande architectuurpatroon van MLOps v2 heeft verschillende essentiële onderdelen, waaronder op rollen gebaseerd toegangsbeheer (RBAC) dat overeenkomt met zakelijke belanghebbenden, efficiënt pakketbeheer en robuuste bewakingsmechanismen. Deze onderdelen dragen gezamenlijk bij aan de succesvolle implementatie en het beheer van machine learning-werkstromen.

Op persona gebaseerde RBAC

Het is van cruciaal belang dat u de toegang tot machine learning-gegevens en -resources beheert. RBAC biedt een robuust framework om u te helpen bij het beheren wie specifieke acties kan uitvoeren en toegang kan krijgen tot specifieke gebieden binnen uw oplossing. Ontwerp uw identiteitssegmentatiestrategie om te voldoen aan de levenscyclus van machine learning-modellen in Machine Learning en de persona's die in het proces zijn opgenomen. Elke persona heeft een specifieke set verantwoordelijkheden die worden weerspiegeld in hun RBAC-rollen en groepslidmaatschap.

Voorbeeld van persona's

Als u de juiste segmentatie in een machine learning-workload wilt ondersteunen, moet u rekening houden met de volgende algemene persona's die het op identiteit gebaseerde RBAC-groepsontwerp informeren.

Data scientist en machine learning-engineer

Gegevenswetenschappers en machine learning-engineers voeren verschillende machine learning- en data science-activiteiten uit in de levenscyclus van softwareontwikkeling van een project. Hun taken omvatten verkennende gegevensanalyse en voorverwerking van gegevens. Gegevenswetenschappers en machine learning-engineers zijn verantwoordelijk voor het trainen, evalueren en implementeren van modellen. De verantwoordelijkheden van deze rollen omvatten ook break-fix-activiteiten voor machine learning-modellen, pakketten en gegevens. Deze taken vallen buiten het bereik van het technische ondersteuningsteam van het platform.