Mogelijke schade beperken

Voltooid

Nadat u een basislijn hebt vastgesteld en de manier hebt bepaald om de schadelijke uitvoer te meten die door een oplossing wordt gegenereerd, kunt u stappen ondernemen om de mogelijke schade te beperken en, indien nodig, het gewijzigde systeem opnieuw te testen en schadeniveaus te vergelijken met de basislijn.

Risicobeperking van mogelijke schade in een generatieve AI-oplossing omvat een gelaagde benadering, waarbij beperkingstechnieken op elk van de vier lagen kunnen worden toegepast, zoals hier wordt weergegeven:

Diagram showing the model, safety system, application, and positioning layers of a generative AI solution.

  1. Model
  2. Veiligheidssysteem
  3. Metaprompt en grounding
  4. Gebruikerservaring

1: De modellaag

De modellaag bestaat uit de generatieve AI-modellen in het hart van uw oplossing. Uw oplossing kan bijvoorbeeld worden gebouwd rond een model zoals GPT-4.

Oplossingen die u op de modellaag kunt toepassen, zijn onder andere:

  • Het selecteren van een model dat geschikt is voor het beoogde oplossingsgebruik. Zo kan GPT-4 een krachtig en veelzijdig model zijn, in een oplossing die alleen nodig is om kleine, specifieke tekstinvoer te classificeren, kan een eenvoudiger model de vereiste functionaliteit bieden met een lager risico op het genereren van schadelijke inhoud.
  • Verfijn een basismodel met uw eigen trainingsgegevens, zodat de reacties die worden gegenereerd, waarschijnlijk relevanter zijn en afgestemd op uw oplossingsscenario.

2: De veiligheidssysteemlaag

De beveiligingssysteemlaag bevat configuraties en mogelijkheden op platformniveau waarmee schade kan worden beperkt. Azure OpenAI Service bevat bijvoorbeeld ondersteuning voor inhoudsfilters die criteria toepassen om prompts en antwoorden te onderdrukken op basis van de classificatie van inhoud in vier ernstniveaus (veilig, laag, gemiddeld en hoog) voor vier categorieƫn potentiƫle schade (haat, seksueel, geweld en zelfschade).

Andere oplossingen voor de beveiligingssysteemlaag kunnen misbruikdetectiealgoritmen bevatten om te bepalen of de oplossing systematisch wordt misbruikt (bijvoorbeeld via grote hoeveelheden geautomatiseerde aanvragen van een bot) en waarschuwingsmeldingen die een snelle reactie op mogelijk systeemmisbruik of schadelijk gedrag mogelijk maken.

3: De metaprompt- en groundinglaag

De metaprompt- en groundinglaag richt zich op de bouw van prompts die naar het model worden verzonden. Risicobeperkingstechnieken die u op deze laag kunt toepassen, zijn onder andere:

  • Metaprompts of systeeminvoer opgeven waarmee gedragsparameters voor het model worden gedefinieerd.
  • Het toepassen van prompt-engineering om grondgegevens toe te voegen aan invoerprompts, waardoor de kans op een relevante, niet-harige uitvoer wordt gemaximaliseerd.
  • Met behulp van een rag-benadering (Augmented Generation ) voor het ophalen van contextuele gegevens uit vertrouwde gegevensbronnen en deze opnemen in prompts.

4: De gebruikerservaringslaag

De gebruikerservaringslaag bevat de softwaretoepassing waarmee gebruikers interactie hebben met het generatieve AI-model, evenals documentatie of andere gebruikersonderpanden die het gebruik van de oplossing voor de gebruikers en belanghebbenden beschrijven.

Het ontwerpen van de gebruikersinterface van de toepassing om invoer te beperken tot specifieke onderwerpen of typen, of het toepassen van invoer- en uitvoervalidatie kan het risico op mogelijk schadelijke reacties beperken.

Documentatie en andere beschrijvingen van een generatieve AI-oplossing moeten op de juiste wijze transparant zijn over de mogelijkheden en beperkingen van het systeem, de modellen waarop het is gebaseerd, en mogelijke schade die mogelijk niet altijd wordt aangepakt door de risicobeperkingsmaatregelen die u hebt ingesteld.