Delen via


Modelbewaking voor generatieve AI-toepassingen (preview)

Het bewaken van modellen in productie is een essentieel onderdeel van de AI-levenscyclus. Wijzigingen in het gedrag van gegevens en consumenten kunnen in de loop van de tijd invloed hebben op uw generatieve AI-toepassing, wat resulteert in verouderde systemen die negatieve invloed hebben op bedrijfsresultaten en organisaties blootstellen aan nalevings-, economische en reputatierisico's.

Belangrijk

Modelbewaking voor generatieve AI-toepassingen is momenteel beschikbaar als openbare preview. Deze previews worden aangeboden zonder service level agreement en worden niet aanbevolen voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt. Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.

Met azure Machine Learning-modelbewaking voor generatieve AI-toepassingen kunt u uw LLM-toepassingen eenvoudiger bewaken in productie voor veiligheid en kwaliteit op basis van een frequentie om ervoor te zorgen dat deze maximale bedrijfsimpact levert. Bewaking helpt uiteindelijk de kwaliteit en veiligheid van uw generatieve AI-toepassingen te behouden. Mogelijkheden en integraties zijn onder andere:

Raadpleeg modelbewaking met Azure Machine Learning (preview) voor algemene basisconcepten voor modelbewaking. In dit artikel leert u hoe u een generatieve AI-toepassing bewaakt die wordt ondersteund door een beheerd online-eindpunt. De stappen die u uitvoert, zijn:

Metrische evaluatiegegevens

Metrische gegevens worden gegenereerd door de volgende geavanceerde GPT-taalmodellen die zijn geconfigureerd met specifieke evaluatie-instructies (promptsjablonen) die fungeren als evaluatormodellen voor reeks-naar-reekstaken. Deze techniek heeft sterke empirische resultaten en een hoge correlatie met menselijk oordeel aangetoond in vergelijking met standaardgeneratieve AI-evaluatiegegevens. Meer informatie over de evaluatie van promptstromen, zie Bulktest verzenden en een stroom evalueren (preview) voor meer informatie over de evaluatie van promptstromen.

Deze GPT-modellen worden ondersteund en worden geconfigureerd als uw Azure OpenAI-resource:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

De volgende metrische gegevens worden ondersteund. Zie Beschrijvingen van metrische gegevens en use cases voor controle van metrische gegevens voor meer informatie over elke metrische waarde

  • Geaardheid: evalueert hoe goed de gegenereerde antwoorden van het model overeenkomen met informatie uit de invoerbron.
  • Relevantie: evalueert de mate waarin de gegenereerde antwoorden van het model relevant zijn en rechtstreeks gerelateerd zijn aan de gegeven vragen.
  • Coherentie: evalueert hoe goed het taalmodel uitvoerstromen soepel kan produceren, natuurlijk leest en lijkt op menselijke taal.
  • Vaardigheid: evalueert de taalvaardigheid van het voorspelde antwoord van ai. Het beoordeelt hoe goed de gegenereerde tekst voldoet aan grammaticale regels, syntactische structuren en het juiste gebruik van vocabulaire, wat resulteert in taalkundige correcte en natuurlijke reacties.
  • Gelijkenis: evalueert de gelijkenis tussen een grondwaarzin (of document) en de voorspellingszin die door een AI-model wordt gegenereerd.

Vereisten voor metrische configuratie

De volgende invoer (gegevenskolomnamen) zijn vereist om de veiligheid en kwaliteit van de generatie te meten:

  • prompttekst : de oorspronkelijke prompt die wordt gegeven (ook wel 'invoer' of 'vraag' genoemd)
  • voltooiingstekst : de uiteindelijke voltooiing van de API-aanroep die wordt geretourneerd (ook wel 'uitvoer' of 'antwoord' genoemd)
  • contexttekst : contextgegevens die worden verzonden naar de API-aanroep, samen met de oorspronkelijke prompt. Als u bijvoorbeeld alleen zoekresultaten van bepaalde gecertificeerde informatiebronnen/website wilt ophalen, kunt u deze definiëren in de evaluatiestappen. Dit is een optionele stap die kan worden geconfigureerd via de promptstroom.
  • tekst voor grondwaar - de door de gebruiker gedefinieerde tekst als de 'bron van waarheid' (optioneel)

Welke parameters in uw gegevensasset zijn geconfigureerd, bepaalt welke metrische gegevens u kunt produceren, volgens deze tabel:

Metrische gegevens Prompt Voltooiing Context Grondwaar
Samenhang Vereist Vereist - -
Vlotheid Vereist Vereist - -
Grondgebondenheid Vereist Vereist Vereist -
Relevantie Vereist Vereist Vereist -
Gelijkenis Vereist Vereist - Vereist

Vereisten

  1. Azure OpenAI-resource: u moet een Azure OpenAI-resource hebben gemaakt met voldoende quotum. Deze resource wordt gebruikt als uw evaluatie-eindpunt.
  2. Beheerde identiteit: Maak een door de gebruiker toegewezen beheerde identiteit (UAI) en koppel deze aan uw werkruimte met behulp van de richtlijnen in Door de gebruiker toegewezen beheerde identiteit koppelen met CLI v2met voldoende roltoegang, zoals gedefinieerd in de volgende stap.
  3. Roltoegang Als u een rol met de vereiste machtigingen wilt toewijzen, moet u de eigenaar of Microsoft.Authorization/roleAssignments/write-machtiging voor uw resource hebben. Het bijwerken van verbindingen en machtigingen kan enkele minuten duren. Deze extra rollen moeten worden toegewezen aan uw UAI:
    • Resource: Werkruimte
    • Rol: Azure Machine Learning-Datawetenschapper
  4. Werkruimteverbinding: volgens deze richtlijnen gebruikt u een beheerde identiteit die de referenties vertegenwoordigt voor het Azure OpenAI-eindpunt dat wordt gebruikt om de metrische bewakingsgegevens te berekenen. Verwijder de verbinding niet zodra deze in de stroom wordt gebruikt.
    • API-versie: 2023-03-15-preview
  5. Implementatie van promptstroom: Maak een promptstroomruntime volgens deze richtlijnen, voer uw stroom uit en zorg ervoor dat uw implementatie is geconfigureerd met behulp van dit artikel als richtlijn
    • Stroominvoer en -uitvoer: u moet de stroomuitvoer op de juiste wijze een naam geven en deze kolomnamen onthouden bij het maken van uw monitor. In dit artikel gebruiken we het volgende:
      • Invoer (vereist): "prompt"
      • Uitvoer (vereist): "voltooiing"
        • Uitvoer (optioneel): 'context' | "grond waarheid"
    • Gegevensverzameling: in de 'Implementatie' (stap 2 van de wizard promptstroomimplementatie) moet de wisselknop 'deductiegegevensverzameling' zijn ingeschakeld met modelgegevensverzamelaar
    • Uitvoer: Controleer in de uitvoer (stap 3 van de wizard promptstroomimplementatie) of u de vereiste uitvoer hebt geselecteerd die hierboven wordt vermeld (bijvoorbeeld voltooiing | context | ground_truth) die voldoen aan uw metrische configuratievereisten

Notitie

Als uw rekenproces zich achter een VNet bevindt, raadpleegt u Netwerkisolatie in promptstroom.

Uw monitor maken

Uw monitor maken op de overzichtspagina Bewaking Schermopname die laat zien hoe u een monitor voor uw toepassing maakt.

Basisinstellingen voor bewaking configureren

Wijzig in de wizard Voor het maken van bewaking het taaktype van het model om te vragen en te voltooien, zoals wordt weergegeven door (A) in de schermopname. Schermopname van het configureren van basisbewakingsinstellingen voor generatieve AI.

Gegevensasset configureren

Als u Modelgegevensverzamelaar hebt gebruikt, selecteert u uw twee gegevensassets (invoer en uitvoer). Schermopname die laat zien hoe u uw gegevensasset configureert voor generatieve AI.

Bewakingssignalen selecteren

Schermopname van configuratieopties voor bewakingssignalen in het dialoogvenster bewakingsinstellingen.

  1. Configureer de werkruimteverbinding (A) in de schermopname.
    1. U moet uw werkruimteverbinding juist configureren, of u ziet het volgende: Schermopname van een niet-geconfigureerd bewakingssignaal.
  2. Voer de implementatienaam van uw Azure OpenAI-evaluator (B) in.
  3. (Optioneel) Voeg uw productiegegevensinvoer en -uitvoer toe: uw productiemodelinvoer en -uitvoer worden automatisch gekoppeld door de Bewakingsservice (C). U kunt dit zo nodig aanpassen, maar er is geen actie vereist. De joinkolom is standaard correlatie-id.
  4. (Optioneel) Metrische drempelwaarden configureren: een acceptabele score per instantie is vastgesteld op 3/5. U kunt uw acceptabele totale percentage doorgeven tussen het bereik [1,99] % aanpassen
  • Voer handmatig kolomnamen uit uw promptstroom (E) in. Standaardnamen zijn (prompt) | "voltooiing" | "context" | "ground_truth") maar u kunt deze configureren op basis van uw gegevensasset.

  • (optioneel) Steekproeffrequentie instellen (F)

  • Zodra het signaal is geconfigureerd, wordt er geen waarschuwing meer weergegeven. Schermopname van bewakingssignaalconfiguraties zonder waarschuwing.

Meldingen configureren

Er is geen actie vereist. U kunt zo nodig meer geadresseerden configureren. Schermopname van configuraties voor bewakingsmeldingen.

Configuratie van bewakingssignaal bevestigen

Wanneer de configuratie is voltooid, moet uw monitor er als volgt uitzien: Schermopname van een geconfigureerd bewakingssignaal.

Bewakingsstatus bevestigen

Als deze is geconfigureerd, ziet u in uw bewakingspijplijntaak het volgende: Schermopname van een geconfigureerd bewakingssignaal.

Resultaten gebruiken

Overzichtspagina bewaken

Uw monitoroverzicht biedt een overzicht van uw signaalprestaties. U kunt de pagina met signaalgegevens invoeren voor meer informatie. Schermopname van het monitoroverzicht.

Pagina Signaaldetails

Op de pagina met signaaldetails kunt u metrische gegevens bekijken in de loop van de tijd (A) en histogrammen van distributie (B) weergeven.

Schermopname van een pagina met signaaldetails.

Waarschuwingen oplossen

Het is alleen mogelijk om signaaldrempels aan te passen. De acceptabele score is vastgesteld op 3/5 en het is alleen mogelijk om het veld 'acceptabele algemene percentage doorgangsfrequentie' aan te passen. Schermopname van het aanpassen van signaaldrempels.

Volgende stappen