Modelbewaking voor generatieve AI-toepassingen (preview)

Artikel
10/16/2024

Het bewaken van modellen in productie is een essentieel onderdeel van de AI-levenscyclus. Wijzigingen in het gedrag van gegevens en consumenten kunnen in de loop van de tijd invloed hebben op uw generatieve AI-toepassing, wat resulteert in verouderde systemen die negatieve invloed hebben op bedrijfsresultaten en organisaties blootstellen aan nalevings-, economische en reputatierisico's.

Belangrijk

Modelbewaking voor generatieve AI-toepassingen is momenteel beschikbaar als openbare preview. Deze previews worden aangeboden zonder service level agreement en worden niet aanbevolen voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Met azure Machine Learning-modelbewaking voor generatieve AI-toepassingen kunt u uw LLM-toepassingen eenvoudiger bewaken in productie voor veiligheid en kwaliteit op basis van een frequentie om ervoor te zorgen dat deze maximale bedrijfsimpact levert. Bewaking helpt uiteindelijk de kwaliteit en veiligheid van uw generatieve AI-toepassingen te behouden. Mogelijkheden en integraties zijn onder andere:

Productiegegevens verzamelen met behulp van modelgegevensverzamelaar.
Metrische gegevens voor verantwoorde AI-evaluatie, zoals grondheid, samenhang, fluency, relevantie en overeenkomsten, die compatibel zijn met de metrische gegevens over de stroomevaluatie van Azure Machine Learning.
Mogelijkheid om waarschuwingen voor schendingen te configureren op basis van organisatiedoelen en bewaking op terugkerende basis uit te voeren
Resultaten gebruiken in een uitgebreid dashboard in een werkruimte in de Azure Machine Learning-studio.
Integratie met metrische gegevens over de evaluatie van stroom in Azure Machine Learning, analyse van verzamelde productiegegevens voor tijdige waarschuwingen en visualisatie van de metrische gegevens in de loop van de tijd.

Raadpleeg modelbewaking met Azure Machine Learning (preview) voor algemene basisconcepten voor modelbewaking. In dit artikel leert u hoe u een generatieve AI-toepassing bewaakt die wordt ondersteund door een beheerd online-eindpunt. De stappen die u uitvoert, zijn:

Vereisten configureren
Uw monitor maken
Bewakingsstatus bevestigen
Bewakingsresultaten gebruiken

Metrische evaluatiegegevens

Metrische gegevens worden gegenereerd door de volgende geavanceerde GPT-taalmodellen die zijn geconfigureerd met specifieke evaluatie-instructies (promptsjablonen) die fungeren als evaluatormodellen voor reeks-naar-reekstaken. Deze techniek heeft sterke empirische resultaten en een hoge correlatie met menselijk oordeel aangetoond in vergelijking met standaardgeneratieve AI-evaluatiegegevens. Meer informatie over de evaluatie van promptstromen, zie Bulktest verzenden en een stroom evalueren (preview) voor meer informatie over de evaluatie van promptstromen.

Deze GPT-modellen worden ondersteund en worden geconfigureerd als uw Azure OpenAI-resource:

GPT-3.5 Turbo
GPT-4
GPT-4-32k

De volgende metrische gegevens worden ondersteund. Zie Beschrijvingen van metrische gegevens en use cases voor controle van metrische gegevens voor meer informatie over elke metrische waarde

Geaardheid: evalueert hoe goed de gegenereerde antwoorden van het model overeenkomen met informatie uit de invoerbron.
Relevantie: evalueert de mate waarin de gegenereerde antwoorden van het model relevant zijn en rechtstreeks gerelateerd zijn aan de gegeven vragen.
Coherentie: evalueert hoe goed het taalmodel uitvoerstromen soepel kan produceren, natuurlijk leest en lijkt op menselijke taal.
Vaardigheid: evalueert de taalvaardigheid van het voorspelde antwoord van ai. Het beoordeelt hoe goed de gegenereerde tekst voldoet aan grammaticale regels, syntactische structuren en het juiste gebruik van vocabulaire, wat resulteert in taalkundige correcte en natuurlijke reacties.
Gelijkenis: evalueert de gelijkenis tussen een grondwaarzin (of document) en de voorspellingszin die door een AI-model wordt gegenereerd.

Vereisten voor metrische configuratie

De volgende invoer (gegevenskolomnamen) zijn vereist om de veiligheid en kwaliteit van de generatie te meten:

prompttekst : de oorspronkelijke prompt die wordt gegeven (ook wel 'invoer' of 'vraag' genoemd)
voltooiingstekst : de uiteindelijke voltooiing van de API-aanroep die wordt geretourneerd (ook wel 'uitvoer' of 'antwoord' genoemd)
contexttekst : contextgegevens die worden verzonden naar de API-aanroep, samen met de oorspronkelijke prompt. Als u bijvoorbeeld alleen zoekresultaten van bepaalde gecertificeerde informatiebronnen/website wilt ophalen, kunt u deze definiëren in de evaluatiestappen. Dit is een optionele stap die kan worden geconfigureerd via de promptstroom.
tekst voor grondwaar - de door de gebruiker gedefinieerde tekst als de 'bron van waarheid' (optioneel)

Welke parameters in uw gegevensasset zijn geconfigureerd, bepaalt welke metrische gegevens u kunt produceren, volgens deze tabel:

Metrische gegevens	Prompt	Voltooiing	Context	Grondwaar
Samenhang	Vereist	Vereist	-	-
Vlotheid	Vereist	Vereist	-	-
Grondgebondenheid	Vereist	Vereist	Vereist	-
Relevantie	Vereist	Vereist	Vereist	-
Gelijkenis	Vereist	Vereist	-	Vereist

Vereisten

Azure OpenAI-resource: u moet een Azure OpenAI-resource hebben gemaakt met voldoende quotum. Deze resource wordt gebruikt als uw evaluatie-eindpunt.
Beheerde identiteit: Maak een door de gebruiker toegewezen beheerde identiteit (UAI) en koppel deze aan uw werkruimte met behulp van de richtlijnen in Door de gebruiker toegewezen beheerde identiteit koppelen met CLI v2met voldoende roltoegang, zoals gedefinieerd in de volgende stap.
Roltoegang Als u een rol met de vereiste machtigingen wilt toewijzen, moet u de eigenaar of Microsoft.Authorization/roleAssignments/write-machtiging voor uw resource hebben. Het bijwerken van verbindingen en machtigingen kan enkele minuten duren. Deze extra rollen moeten worden toegewezen aan uw UAI:
- Resource: Werkruimte
- Rol: Azure Machine Learning-Datawetenschapper
Werkruimteverbinding: volgens deze richtlijnen gebruikt u een beheerde identiteit die de referenties vertegenwoordigt voor het Azure OpenAI-eindpunt dat wordt gebruikt om de metrische bewakingsgegevens te berekenen. Verwijder de verbinding niet zodra deze in de stroom wordt gebruikt.
- API-versie: 2023-03-15-preview
Implementatie van promptstroom: Maak een promptstroomruntime volgens deze richtlijnen, voer uw stroom uit en zorg ervoor dat uw implementatie is geconfigureerd met behulp van dit artikel als richtlijn
- Stroominvoer en -uitvoer: u moet de stroomuitvoer op de juiste wijze een naam geven en deze kolomnamen onthouden bij het maken van uw monitor. In dit artikel gebruiken we het volgende:
  - Invoer (vereist): "prompt"
  - Uitvoer (vereist): "voltooiing"
    - Uitvoer (optioneel): 'context' | "grond waarheid"
- Gegevensverzameling: in de 'Implementatie' (stap 2 van de wizard promptstroomimplementatie) moet de wisselknop 'deductiegegevensverzameling' zijn ingeschakeld met modelgegevensverzamelaar
- Uitvoer: Controleer in de uitvoer (stap 3 van de wizard promptstroomimplementatie) of u de vereiste uitvoer hebt geselecteerd die hierboven wordt vermeld (bijvoorbeeld voltooiing | context | ground_truth) die voldoen aan uw metrische configuratievereisten

Notitie

Als uw rekenproces zich achter een VNet bevindt, raadpleegt u Netwerkisolatie in promptstroom.

Uw monitor maken

Uw monitor maken op de overzichtspagina Bewaking

Basisinstellingen voor bewaking configureren

Wijzig in de wizard Voor het maken van bewaking het taaktype van het model om te vragen en te voltooien, zoals wordt weergegeven door (A) in de schermopname.

Gegevensasset configureren

Als u Modelgegevensverzamelaar hebt gebruikt, selecteert u uw twee gegevensassets (invoer en uitvoer).

Bewakingssignalen selecteren

Configureer de werkruimteverbinding (A) in de schermopname.
1. U moet uw werkruimteverbinding juist configureren, of u ziet het volgende:
Voer de implementatienaam van uw Azure OpenAI-evaluator (B) in.
(Optioneel) Voeg uw productiegegevensinvoer en -uitvoer toe: uw productiemodelinvoer en -uitvoer worden automatisch gekoppeld door de Bewakingsservice (C). U kunt dit zo nodig aanpassen, maar er is geen actie vereist. De joinkolom is standaard correlatie-id.
(Optioneel) Metrische drempelwaarden configureren: een acceptabele score per instantie is vastgesteld op 3/5. U kunt uw acceptabele totale percentage doorgeven tussen het bereik [1,99] % aanpassen

Voer handmatig kolomnamen uit uw promptstroom (E) in. Standaardnamen zijn (prompt) | "voltooiing" | "context" | "ground_truth") maar u kunt deze configureren op basis van uw gegevensasset.
(optioneel) Steekproeffrequentie instellen (F)
Zodra het signaal is geconfigureerd, wordt er geen waarschuwing meer weergegeven.

Meldingen configureren

Er is geen actie vereist. U kunt zo nodig meer geadresseerden configureren.

Configuratie van bewakingssignaal bevestigen

Wanneer de configuratie is voltooid, moet uw monitor er als volgt uitzien:

Bewakingsstatus bevestigen

Als deze is geconfigureerd, ziet u in uw bewakingspijplijntaak het volgende:

Resultaten gebruiken

Overzichtspagina bewaken

Uw monitoroverzicht biedt een overzicht van uw signaalprestaties. U kunt de pagina met signaalgegevens invoeren voor meer informatie.

Pagina Signaaldetails

Op de pagina met signaaldetails kunt u metrische gegevens bekijken in de loop van de tijd (A) en histogrammen van distributie (B) weergeven.

Waarschuwingen oplossen

Het is alleen mogelijk om signaaldrempels aan te passen. De acceptabele score is vastgesteld op 3/5 en het is alleen mogelijk om het veld 'acceptabele algemene percentage doorgangsfrequentie' aan te passen.

Delen via