Machine learning-bewerkingen

Machine learning-bewerkingen (ook wel MLOps genoemd ) is de toepassing van DevOps-principes voor door AI geïnfuseerde toepassingen. Als u machine learning-bewerkingen in een organisatie wilt implementeren, moeten er specifieke vaardigheden, processen en technologie aanwezig zijn. Het doel is om machine learning-oplossingen te leveren die robuust, schaalbaar, betrouwbaar en geautomatiseerd zijn.

In dit artikel leert u hoe u resources plant ter ondersteuning van machine learning-bewerkingen op organisatieniveau. Bekijk best practices en aanbevelingen die zijn gebaseerd op het gebruik van Azure Machine Learning om machine learning-bewerkingen in de onderneming te implementeren.

Wat is machine learning-bewerkingen?

Moderne machine learning-algoritmen en -frameworks maken het steeds eenvoudiger om modellen te ontwikkelen die nauwkeurige voorspellingen kunnen doen. Machine learning-bewerkingen is een gestructureerde manier om machine learning op te nemen in de ontwikkeling van toepassingen in de onderneming.

In een voorbeeldscenario hebt u een machine learning-model gebouwd dat al uw nauwkeurigheids verwachtingen overschrijdt en indruk maakt op uw bedrijfssponsors. Nu is het tijd om het model in productie te implementeren, maar dat is misschien niet zo eenvoudig als u had verwacht. De organisatie moet waarschijnlijk mensen, processen en technologie gebruiken voordat het uw machine learning-model in productie kan gebruiken.

Na verloop van tijd kunnen u of een collega een nieuw model ontwikkelen dat beter werkt dan het oorspronkelijke model. Als u een machine learning-model vervangt dat in productie wordt gebruikt, worden enkele zaken geïntroduceerd die belangrijk zijn voor de organisatie:

  • U wilt het nieuwe model implementeren zonder de bedrijfsactiviteiten te verstoren die afhankelijk zijn van het geïmplementeerde model.
  • Voor regelgevingsdoeleinden moet u mogelijk de voorspellingen van het model uitleggen of het model opnieuw maken als ongebruikelijke of bevooroordeerde voorspellingen het resultaat zijn van gegevens in het nieuwe model.
  • De gegevens die u in uw machine learning-training en -model gebruikt, kunnen na verloop van tijd veranderen. Met wijzigingen in de gegevens moet u het model mogelijk periodiek opnieuw trainen om de nauwkeurigheid van de voorspelling te behouden. Aan een persoon of rol moet de verantwoordelijkheid worden toegewezen voor het invoeren van de gegevens, het bewaken van de prestaties van het model, het opnieuw trainen van het model en het herstellen van het model als het mislukt.

Stel dat u een toepassing hebt die de voorspellingen van een model bedient via REST API. Zelfs een eenvoudige use case zoals deze kan problemen veroorzaken in de productie. Het implementeren van een strategie voor machine learning-bewerkingen kan u helpen bij het oplossen van problemen met implementaties en het ondersteunen van bedrijfsactiviteiten die afhankelijk zijn van door AI geïnfuseerde toepassingen.

Sommige machine learning-bewerkingstaken passen goed in het algemene DevOps-framework. Voorbeelden hiervan zijn het instellen van eenheidstests en integratietests en het bijhouden van wijzigingen met behulp van versiebeheer. Andere taken zijn unieker voor machine learning-bewerkingen en kunnen het volgende omvatten:

  • Schakel continue experimenten en vergelijking in op basis van een basislijnmodel.
  • Bewaak binnenkomende gegevens om gegevensdrift te detecteren.
  • Trigger model hertraining en stel een terugdraaiactie in voor herstel na noodgevallen.
  • Maak herbruikbare gegevenspijplijnen voor training en score.

Het doel van machine learning-bewerkingen is het sluiten van de kloof tussen ontwikkeling en productie en het sneller leveren van waarde aan klanten. Om dit doel te bereiken, moet u traditionele ontwikkelings- en productieprocessen herzien.

Niet de vereisten voor machine learning-bewerkingen van elke organisatie zijn hetzelfde. De machine learning-bewerkingsarchitectuur van een grote, multinationale onderneming is waarschijnlijk niet dezelfde infrastructuur die een kleine startup tot stand brengt. Organisaties beginnen meestal klein en bouwen op naarmate hun volwassenheid, modelcatalogus en ervaring groeien.

Met het volwassen model voor machine learning-bewerkingen kunt u zien waar uw organisatie zich op de schaal van de volwassenheid van machine learning-bewerkingen bevindt en u helpen bij het plannen van toekomstige groei.

Machine learning-bewerkingen versus DevOps

Machine learning-bewerkingen verschillen van DevOps in verschillende belangrijke gebieden. Machine learning-bewerkingen hebben de volgende kenmerken:

  • Verkenning gaat vooraf aan ontwikkeling en bewerkingen.
  • Voor de levenscyclus van data science is een adaptieve manier van werken vereist.
  • Limieten voor de voortgang van gegevenskwaliteit en beschikbaarheidslimiet.
  • Er is een grotere operationele inspanning vereist dan in DevOps.
  • Werkteams vereisen specialisten en domeinexperts.

Raadpleeg de zeven principes van machine learning-bewerkingen voor een samenvatting.

Verkenning gaat vooraf aan ontwikkeling en bewerkingen

Data science-projecten verschillen van toepassingsontwikkelings- of data engineering-projecten. Een data science-project maakt het mogelijk tot productie, maar vaak zijn er meer stappen betrokken dan bij een traditionele implementatie. Na een eerste analyse kan het duidelijk worden dat het bedrijfsresultaat niet kan worden bereikt met de beschikbare gegevenssets. Een gedetailleerdere verkenningsfase is meestal de eerste stap in een data science-project.

Het doel van de verkenningsfase is het definiëren en verfijnen van het probleem. Tijdens deze fase voeren gegevenswetenschappers experimentele gegevensanalyse uit. Ze gebruiken statistieken en visualisaties om de probleemhypotheses te bevestigen of te vervalsen. Belanghebbenden moeten begrijpen dat het project mogelijk niet verder gaat dan deze fase. Tegelijkertijd is het belangrijk om deze fase zo naadloos mogelijk te maken voor een snelle omslag. Tenzij het probleem dat moet worden opgelost, een beveiligingselement bevat, moet u voorkomen dat de experimentele fase met processen en procedures wordt beperkt. Gegevenswetenschappers moeten kunnen werken met de hulpprogramma's en gegevens die ze de voorkeur geven. Echte gegevens zijn nodig voor dit verkennende werk.

Het project kan worden verplaatst naar de experimenten- en ontwikkelingsfasen wanneer belanghebbenden ervan overtuigd zijn dat het data science-project haalbaar is en echte bedrijfswaarde kan bieden. In dit stadium worden ontwikkelprocedures steeds belangrijker. Het is een goede gewoonte om metrische gegevens vast te leggen voor alle experimenten die in deze fase worden uitgevoerd. Het is ook belangrijk om broncodebeheer op te nemen, zodat u modellen kunt vergelijken en kunt schakelen tussen verschillende versies van de code.

Ontwikkelingsactiviteiten omvatten het herstructureren, testen en automatiseren van verkenningscode in herhaalbare experimentenpijplijnen. De organisatie moet toepassingen en pijplijnen maken om de modellen te kunnen bedienen. Het herstructureren van code in modulaire onderdelen en bibliotheken helpt bij het vergroten van herbruikbaarheid, testen en prestatieoptimalisatie.

Ten slotte worden de toepassings- of batchdeductiepijplijnen die de modellen leveren, geïmplementeerd in faserings- of productieomgevingen. Naast het bewaken van de betrouwbaarheid en prestaties van de infrastructuur, zoals voor een standaardtoepassing, moet u in een machine learning-modelimplementatie continu de kwaliteit van de gegevens, het gegevensprofiel en het model voor degradatie of drift bewaken. Machine learning-modellen vereisen ook opnieuw trainen in de loop van de tijd om relevant te blijven in een veranderende omgeving.

Diagram of the machine learning DevOps stages explore, experiment and develop, and operate.

Voor de levenscyclus van data science is een adaptieve manier van werken vereist

Omdat de aard en kwaliteit van gegevens in eerste instantie onzeker zijn, kunt u uw bedrijfsdoelen mogelijk niet bereiken als u een typisch DevOps-proces toepast op een data science-project. Verkennen en experimenteren zijn terugkerende activiteiten en behoeften tijdens het machine learning-proces. Teams bij Microsoft gebruiken een levenscyclus van projecten en een werkproces dat de aard van data science-specifieke activiteiten weerspiegelt. Het team Datawetenschap proces en het Datawetenschap levenscyclusproces zijn voorbeelden van referentie-implementaties.

Limieten voor de voortgang van gegevenskwaliteit en beschikbaarheidslimiet

Voor een machine learning-team om machine learning-toepassingen effectief te ontwikkelen, heeft de toegang tot productiegegevens de voorkeur voor alle relevante werkomgevingen. Als toegang tot productiegegevens niet mogelijk is vanwege nalevingsvereisten of technische beperkingen, kunt u overwegen om op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) te implementeren met Azure Machine Learning, Just-In-Time-toegang of pijplijnen voor gegevensverplaatsing om productiegegevensreplica's te maken en de productiviteit van gebruikers te verbeteren.

Machine learning vereist een grotere operationele inspanning

In tegenstelling tot traditionele software lopen de prestaties van een machine learning-oplossing voortdurend risico omdat de oplossing afhankelijk is van de gegevenskwaliteit. Om een kwalitatieve oplossing in productie te houden, is het essentieel dat u zowel gegevens als modelkwaliteit continu bewaakt en opnieuw evalueert. Er wordt verwacht dat een productiemodel tijdig opnieuw moet trainen, opnieuw implementeren en afstemmen. Deze taken komen bovenop dagelijkse beveiligings-, infrastructuurbewakings- en nalevingsvereisten, en ze vereisen gespecialiseerde expertise.

Machine learning-teams vereisen specialisten en domeinexperts

Hoewel data science-projecten rollen delen met reguliere IT-projecten, hangt het succes van een machine learning-inspanning sterk af van het hebben van essentiële machine learning-technologiespecialisten en domeinexperts. Een technologiespecialist heeft de juiste achtergrond om end-to-end machine learning-experimenten uit te voeren. Een domeinexpert kan de specialist ondersteunen door gegevens te analyseren en te synthetiseren of door in aanmerking komende gegevens te gebruiken.

Algemene technische rollen die uniek zijn voor data science-projecten zijn domeinexpert, data engineer, data scientist, AI-engineer, modelvalidator en machine learning-engineer. Zie het team Datawetenschap proces voor meer informatie over rollen en taken in een typisch data science-team.

Zeven principes van machine learning-bewerkingen

Als u van plan bent machine learning-bewerkingen in uw organisatie te implementeren, kunt u overwegen de volgende kernprincipes toe te passen als de basis:

  • Gebruik versiebeheer voor uitvoer van code, gegevens en experimenten. In tegenstelling tot bij traditionele softwareontwikkeling hebben gegevens een directe invloed op de kwaliteit van machine learning-modellen. U moet de codebasis voor experimenten versien, maar ook uw gegevenssets versien om ervoor te zorgen dat u experimenten of deductieresultaten kunt reproduceren. Versiebeheerexperimenten, zoals modellen, kunnen moeite besparen en de rekenkosten voor het opnieuw maken ervan.

  • Gebruik meerdere omgevingen. Als u de ontwikkeling en tests van productiewerkzaamheden wilt scheiden, repliceert u uw infrastructuur in ten minste twee omgevingen. Toegangsbeheer voor gebruikers kan voor elke omgeving verschillen.

  • Beheer uw infrastructuur en configuraties als code. Wanneer u infrastructuuronderdelen in uw werkomgevingen maakt en bijwerkt, gebruikt u infrastructuur als code, zodat inconsistenties niet in uw omgevingen worden ontwikkeld. Beheer machine learning-experimenttaakspecificaties als code, zodat u eenvoudig een versie van uw experiment in meerdere omgevingen opnieuw kunt uitvoeren en opnieuw kunt gebruiken.

  • Machine Learning-experimenten bijhouden en beheren. Houd key performance indicators en andere artefacten bij voor uw machine learning-experimenten. Wanneer u een geschiedenis van taakprestaties behoudt, kunt u een kwantitatieve analyse uitvoeren van het succes van experimenten en de samenwerking en flexibiliteit van het team verbeteren.

  • Test code, valideer gegevensintegriteit en zorg voor modelkwaliteit.Test uw experimentencodebasis voor de juiste gegevensvoorbereiding en functieextractiefuncties, gegevensintegriteit en modelprestaties.

  • Continue integratie en levering van Machine Learning. Gebruik continue integratie (CI) om tests voor uw team te automatiseren. Modeltraining opnemen als onderdeel van pijplijnen voor continue training. Neem A/B-tests op als onderdeel van uw release om ervoor te zorgen dat alleen een kwalitatief model wordt gebruikt in productie.

  • Services, modellen en gegevens bewaken. Wanneer u modellen in een machine learning-operationele omgeving gebruikt, is het essentieel om de services te bewaken voor de uptime, naleving en modelkwaliteit van de infrastructuur. Stel bewaking in om gegevens- en modeldrift te identificeren en te begrijpen of hertraining vereist is. Overweeg triggers in te stellen voor automatische hertraining.

Best practices van Azure Machine Learning

Azure Machine Learning biedt services voor assetbeheer, indeling en automatisering waarmee u de levenscyclus van uw machine learning-modeltrainings- en implementatiewerkstromen kunt beheren. Bekijk de aanbevolen procedures en aanbevelingen om machine learning-bewerkingen toe te passen op de resourcegebieden van personen, processen en technologie, die allemaal worden ondersteund door Azure Machine Learning.

Personen

  • Werk in projectteams om de beste gespecialiseerde en domeinkennis in uw organisatie te gebruiken. Stel Azure Machine Learning-werkruimten in voor elk project om te voldoen aan de vereisten voor het scheiden van use-cases.

  • Definieer een set verantwoordelijkheden en taken als een rol, zodat elk teamlid in een machine learning operations-projectteam kan worden toegewezen aan en aan meerdere rollen kan voldoen. Gebruik aangepaste rollen in Azure om een set gedetailleerde Azure RBAC-bewerkingen te definiëren voor Azure Machine Learning die elke rol kan uitvoeren.

  • Standaardiseren op basis van een levenscyclus van een project en Agile-methodologie. Het team Datawetenschap proces biedt een referentielevenscyclus-implementatie.

  • Evenwichtige teams kunnen alle fasen van machine learning-bewerkingen uitvoeren, waaronder verkenning, ontwikkeling en bewerkingen.

Proces

  • Standaardiseren op een codesjabloon voor opnieuw gebruiken van code en om de opstarttijd van een nieuw project te versnellen of wanneer een nieuw teamlid lid wordt van het project. Gebruik Azure Machine Learning-pijplijnen, scripts voor het indienen van taken en CI/CD-pijplijnen als basis voor nieuwe sjablonen.

  • Gebruik versiebeheer. Taken die worden verzonden vanuit een map met Git-ondersteuning, houden metagegevens van opslagplaatsen automatisch bij met de taak in Azure Machine Learning voor reproduceerbaarheid.

  • Gebruik versiebeheer voor experimentinvoer en -uitvoer voor reproduceerbaarheid. Gebruik Azure Machine Learning-gegevenssets, modelbeheer en omgevingsbeheermogelijkheden om versiebeheer te vergemakkelijken.

  • Bouw een uitvoeringsgeschiedenis van experimentuitvoeringen op voor vergelijking, planning en samenwerking. Gebruik een framework voor het bijhouden van experimenten zoals MLflow om metrische gegevens te verzamelen.

  • Meet en beheer continu de kwaliteit van het werk van uw team via CI op de volledige basis van experimentele code.

  • Beëindig de training vroeg in het proces wanneer een model niet convergeert. Gebruik een framework voor het bijhouden van experimenten en de uitvoeringsgeschiedenis in Azure Machine Learning om taakuitvoeringen te bewaken.

  • Definieer een strategie voor experiment- en modelbeheer. U kunt een naam zoals kampioen gebruiken om te verwijzen naar het huidige basislijnmodel. Een challenger-model is een kandidaatmodel dat het kampioensmodel in productie kan verbeteren. Pas tags toe in Azure Machine Learning om experimenten en modellen te markeren. In een scenario zoals verkoopprognoses kan het maanden duren om te bepalen of de voorspellingen van het model nauwkeurig zijn.

  • Verhoog CI voor continue training door modeltraining in de build op te geven. Begin bijvoorbeeld met het trainen van modellen voor de volledige gegevensset met elke pull-aanvraag.

  • Verkort de tijd die nodig is om feedback te krijgen over de kwaliteit van de machine learning-pijplijn door een geautomatiseerde build uit te voeren op een gegevensvoorbeeld. Azure Machine Learning-pijplijnparameters gebruiken om invoergegevenssets te parameteriseren.

  • Gebruik continue implementatie (CD) voor machine learning-modellen om de implementatie te automatiseren en realtime scoreservices in uw Azure-omgevingen te testen.

  • In sommige gereguleerde branches moet u mogelijk de modelvalidatiestappen voltooien voordat u een machine learning-model in een productieomgeving kunt gebruiken. Het automatiseren van validatiestappen kan de leveringstijd versnellen. Wanneer handmatige controle- of validatiestappen nog steeds een knelpunt vormen, kunt u overwegen of u de pijplijn voor automatische modelvalidatie kunt certificeren. Gebruik resourcetags in Azure Machine Learning om assetnaleving en kandidaten aan te geven voor beoordeling of als triggers voor implementatie.

  • Niet opnieuw trainen in productie en vervang vervolgens het productiemodel rechtstreeks zonder integratietests uit te voeren. Hoewel modelprestaties en functionele vereisten mogelijk goed lijken, kan een opnieuw getraind model een grotere omgevingsvoetafdruk hebben en de serveromgeving breken.

  • Wanneer toegang tot productiegegevens alleen beschikbaar is in productie, gebruikt u Azure RBAC en aangepaste rollen om een select aantal machine learning-beoefenaars leestoegang te geven. Sommige rollen moeten mogelijk de gegevens lezen voor gerelateerde gegevensverkenning. U kunt ook een gegevenskopie beschikbaar maken in niet-productieomgevingen.

  • Ga akkoord met naamconventies en tags voor Azure Machine Learning-experimenten om een onderscheid te maken tussen machine learning-pijplijnen voor basislijnen van experimenteel werk.

Technologie

  • Als u momenteel taken verzendt via de Azure Machine Learning-studio UI of CLI, gebruikt u de CLI- of Azure DevOps Machine Learning-taken om stappen voor automatiseringspijplijnen te configureren in plaats van taken via de SDK in te dienen. Dit proces kan de codevoetafdruk verminderen door dezelfde taakverzendingen rechtstreeks vanuit automatiseringspijplijnen te hergebruiken.

  • Op gebeurtenissen gebaseerde programmering gebruiken. U kunt bijvoorbeeld een offline testpijplijn voor modellen activeren met behulp van Azure Functions nadat een nieuw model is geregistreerd. U kunt ook een melding verzenden naar een aangewezen e-mailalias wanneer een kritieke pijplijn niet kan worden uitgevoerd. Azure Machine Learning maakt gebeurtenissen in Azure Event Grid. Meerdere rollen kunnen worden geabonneerd op een melding van een gebeurtenis.

  • Wanneer u Azure DevOps gebruikt voor automatisering, gebruikt u Azure DevOps Tasks voor Machine Learning om machine learning-modellen te gebruiken als pijplijntriggers.

  • Wanneer u Python-pakketten voor uw machine learning-toepassing ontwikkelt, kunt u deze als artefacten hosten in een Azure DevOps-opslagplaats en deze publiceren als een feed. Met deze methode kunt u de DevOps-werkstroom integreren voor het bouwen van pakketten met uw Azure Machine Learning-werkruimte.

  • Overweeg om een faseringsomgeving te gebruiken om de integratie van het machine learning-pijplijnsysteem te testen met upstream- of downstreamtoepassingsonderdelen.

  • Maak eenheids- en integratietests voor uw deductie-eindpunten voor verbeterde foutopsporing en om de implementatietijd te versnellen.

  • Als u opnieuw trainen wilt activeren, gebruikt u gegevenssetmonitors en gebeurtenisgestuurde werkstromen. Abonneer u op gegevensdrift-gebeurtenissen en automatiseer de trigger van machine learning-pijplijnen voor opnieuw trainen.

AI Factory voor machine learning-bewerkingen van organisaties

Een data science-team kan besluiten dat het meerdere machine learning-use cases intern kan beheren. Door machine learning-bewerkingen te gebruiken, kan een organisatie projectteams instellen voor betere kwaliteit, betrouwbaarheid en onderhoudbaarheid van oplossingen. Door evenwichtige teams, ondersteunde processen en technologieautomatisering, kan een team dat machine learning-bewerkingen gebruikt, schalen en zich richten op het ontwikkelen van nieuwe use cases.

Naarmate het aantal use cases in een organisatie toeneemt, neemt de beheerlast van het ondersteunen van de use cases lineair toe of zelfs nog meer. De uitdaging voor de organisatie wordt hoe u de tijd tot de markt kunt versnellen, een snellere beoordeling van de haalbaarheid van use-cases, het implementeren van herhaalbaarheid en het beste gebruik van beschikbare resources en vaardighedensets voor een reeks projecten. Voor veel organisaties is het ontwikkelen van een AI-factory de oplossing.

Een AI Factory is een systeem van herhaalbare bedrijfsprocessen en gestandaardiseerde artefacten die het ontwikkelen en implementeren van een grote set machine learning-use cases mogelijk maakt. Een AI Factory optimaliseert de installatie van teams, aanbevolen procedures, strategie voor machine learning-bewerkingen, architectuurpatronen en herbruikbare sjablonen die zijn afgestemd op bedrijfsvereisten.

Een succesvolle AI Factory is afhankelijk van herhaalbare processen en herbruikbare assets om de organisatie te helpen efficiënt te schalen van tientallen use cases naar duizenden use cases.

In de volgende afbeelding ziet u een overzicht van de belangrijkste elementen van een AI-factory:

Diagram of the key elements of an AI factory.

Standaardiseren op herhaalbare architectuurpatronen

Herhaalbaarheid is een belangrijke eigenschap van een AI-factory. Data science-teams kunnen projectontwikkeling versnellen en de consistentie tussen projecten verbeteren door een aantal herhaalbare architectuurpatronen te ontwikkelen die betrekking hebben op de meeste machine learning-use cases voor hun organisatie. Wanneer deze patronen aanwezig zijn, kunnen de meeste projecten de patronen gebruiken om de volgende voordelen te krijgen:

  • Versnelde ontwerpfase
  • Versnelde goedkeuringen van IT- en beveiligingsteams wanneer ze hulpprogramma's hergebruiken in projecten
  • Versnelde ontwikkeling vanwege herbruikbare infrastructuur als codesjablonen en projectsjablonen

De architectuurpatronen kunnen omvatten, maar zijn niet beperkt tot de volgende onderwerpen:

  • Voorkeursservices voor elke fase van het project
  • Gegevensconnectiviteit en -governance
  • Een strategie voor machine learning-bewerkingen die is afgestemd op de vereisten van de branche, het bedrijf of de gegevensclassificatie
  • Modellen voor experimentbeheer en challenger

Samenwerking tussen teams en delen vergemakkelijken

Gedeelde codeopslagplaatsen en hulpprogramma's kunnen de ontwikkeling van machine learning-oplossingen versnellen. Codeopslagplaatsen kunnen op een modulaire manier worden ontwikkeld tijdens het ontwikkelen van projecten, zodat ze algemeen genoeg zijn om in andere projecten te worden gebruikt. Ze kunnen beschikbaar worden gesteld in een centrale opslagplaats waartoe alle data science-teams toegang hebben.

Intellectueel eigendom delen en hergebruiken

Als u het hergebruik van code wilt maximaliseren, bekijkt u het volgende intellectuele eigendom aan het begin van een project:

  • Interne code die is ontworpen voor hergebruik in de organisatie. Voorbeelden hiervan zijn pakketten en modules.
  • Gegevenssets die zijn gemaakt in andere machine learning-projecten of die beschikbaar zijn in het Azure-ecosysteem.
  • Bestaande data science-projecten met een vergelijkbare architectuur en zakelijke problemen.
  • GitHub- of opensource-opslagplaatsen die het project kunnen versnellen.

Een project retrospectief moet een actie-item bevatten om te bepalen of elementen van het project kunnen worden gedeeld en gegeneraliseerd voor breder hergebruik. De lijst met assets die de organisatie kan delen en hergebruiken, wordt in de loop van de tijd uitgebreid.

Veel organisaties hebben gedeelde opslagplaatsen geïntroduceerd om codefragmenten en machine learning-artefacten te organiseren om te helpen bij het delen en detecteren. Artefacten in Azure Machine Learning, waaronder gegevenssets, modellen, omgevingen en pijplijnen, kunnen worden gedefinieerd als code, zodat u ze efficiënt kunt delen in projecten en werkruimten.

Projectsjablonen

Om het proces van het migreren van bestaande oplossingen te versnellen en het hergebruik van code te maximaliseren, standaardiseren veel organisaties een projectsjabloon om nieuwe projecten te starten. Voorbeelden van projectsjablonen die worden aanbevolen voor gebruik met Azure Machine Learning zijn Azure Machine Learning-voorbeelden, het Datawetenschap levenscyclusproces en het team Datawetenschap proces.

Centraal gegevensbeheer

Het proces voor het verkrijgen van toegang tot gegevens voor verkenning of productiegebruik kan tijdrovend zijn. Veel organisaties centraliseren gegevensbeheer om gegevensproducenten en gegevensgebruikers samen te brengen voor eenvoudigere toegang tot gegevens voor machine learning-experimenten.

Gedeelde hulpprogramma's

Uw organisatie kan gecentraliseerde dashboards voor de hele onderneming gebruiken om logboekregistratie- en bewakingsgegevens samen te voegen. De dashboards bevatten mogelijk foutenlogboeken, service-beschikbaarheid en telemetrie en prestatiebewaking van modellen.

Gebruik metrische gegevens van Azure Monitor om een dashboard te maken voor Azure Machine Learning en bijbehorende services zoals Azure Storage. Met een dashboard kunt u de voortgang van experimenten, de status van de rekeninfrastructuur en het GPU-quotumgebruik bijhouden.

Gespecialiseerd machine learning-engineeringteam

Veel organisaties hebben de rol van machine learning-engineer geïmplementeerd. Een machine learning-engineer is gespecialiseerd in het maken en uitvoeren van robuuste machine learning-pijplijnen, driftbewaking en hertrainingswerkstromen en bewakingsdashboards. De technicus heeft de algehele verantwoordelijkheid voor het industrialiseren van de machine learning-oplossing, van ontwikkeling tot productie. De technicus werkt nauw samen met data engineering, architecten, beveiliging en bewerkingen om ervoor te zorgen dat alle benodigde besturingselementen aanwezig zijn.

Hoewel data science diepgaande domeinexpertise vereist, is machine learning-engineering meer technisch gericht. Het verschil maakt de machine learning-engineer flexibeler, zodat ze aan verschillende projecten en met verschillende bedrijfsafdelingen kunnen werken. Grote data science-procedures kunnen profiteren van een gespecialiseerd machine learning-engineeringteam dat herhaalbaarheid en hergebruik van automatiseringswerkstromen in verschillende use cases en bedrijfsgebieden stimuleert.

Inschakelen en documentatie

Het is belangrijk om duidelijke richtlijnen te bieden over het AI Factory-proces voor nieuwe en bestaande teams en gebruikers. Richtlijnen zorgen voor consistentie en verminderen de benodigde inspanning van het machine learning-engineeringteam wanneer het een project industrialiseert. Overweeg om inhoud specifiek te ontwerpen voor de verschillende rollen in uw organisatie.

Iedereen heeft een unieke manier van leren, dus een combinatie van de volgende soorten richtlijnen kan helpen bij het versnellen van de acceptatie van het AI Factory-framework:

  • Een centrale hub met koppelingen naar alle artefacten. Deze hub kan bijvoorbeeld een kanaal op Microsoft Teams of een Microsoft SharePoint-site zijn.
  • Training en een activeringsplan dat is ontworpen voor elke rol.
  • Een overzichtspresentatie op hoog niveau van de aanpak en een bijbehorende video.
  • Een gedetailleerd document of playbook.
  • Instructievideo's.
  • Gereedheidsevaluaties.

Machine learning-bewerkingen in Azure-videoserie

Een videoreeks over machine learning-bewerkingen in Azure laat zien hoe u machine learning-bewerkingen voor uw machine learning-oplossing tot stand brengt, van de eerste ontwikkeling tot de productie.

Ethiek

Ethiek speelt een instrumentele rol in het ontwerp van een AI-oplossing. Als ethische principes niet worden geïmplementeerd, kunnen getrainde modellen dezelfde vooroordelen vertonen die aanwezig zijn in de gegevens waarop ze zijn getraind. Het resultaat kan zijn dat het project wordt stopgezet. Belangrijker is dat de reputatie van de organisatie risico loopt.

Om ervoor te zorgen dat de belangrijkste ethische principes waar de organisatie voor staat in alle projecten worden geïmplementeerd, moet de organisatie een lijst van deze principes en manieren bieden om deze vanuit technisch perspectief te valideren tijdens de testfase. Gebruik de machine learning-functies in Azure Machine Learning om te begrijpen wat verantwoordelijke machine learning is en hoe u deze inbouwt in uw machine learning-bewerkingen.

Volgende stappen

Meer informatie over het organiseren en instellen van Azure Machine Learning-omgevingen of het bekijken van een praktische videoserie over machine learning-bewerkingen in Azure.

Meer informatie over het beheren van budgetten, quota en kosten op organisatieniveau met behulp van Azure Machine Learning: