Minimera potentiella skador

Slutförd

När du har fastställt en baslinje och ett sätt att mäta de skadliga utdata som genereras av en lösning kan du vidta åtgärder för att minimera potentiella skador, och när det är lämpligt testa det modifierade systemet igen och jämföra skadenivåerna med baslinjen.

För att minska potentiella skador i en generativ AI-lösning ingår en metod i flera lager, där riskreduceringstekniker kan användas i vart och ett av fyra lager, enligt följande:

Diagram showing the model, safety system, application, and positioning layers of a generative AI solution.

  1. Modell
  2. Valv ty System
  3. Metaprompt och jordning
  4. Användarupplevelse

1: Modelllagret

Modellskiktet består av generativa AI-modeller i hjärtat av din lösning. Din lösning kan till exempel byggas kring en modell som GPT-4.

Åtgärder som du kan använda på modellskiktet är:

  • Välja en modell som är lämplig för den avsedda lösningen. GpT-4 kan till exempel vara en kraftfull och mångsidig modell, men i en lösning som endast krävs för att klassificera små, specifika textindata kan en enklare modell ge de funktioner som krävs med lägre risk för skadlig innehållsgenerering.
  • Finjustering av en grundläggande modell med dina egna träningsdata så att svaren som genereras är mer benägna att vara relevanta och begränsade till ditt lösningsscenario.

2: Säkerhetssystemlagret

Säkerhetssystemlagret innehåller konfigurationer på plattformsnivå och funktioner som hjälper till att minimera skador. Azure OpenAI Service innehåller till exempel stöd för innehållsfilter som tillämpar kriterier för att förhindra uppmaningar och svar baserat på klassificering av innehåll i fyra allvarlighetsnivåer (säkra, låga, medelstora och höga) för fyra kategorier av potentiell skada (hat, sexuellt, våld och självskada).

Andra säkerhetssystemskiktsreduceringar kan vara algoritmer för missbruksidentifiering för att avgöra om lösningen systematiskt missbrukas (till exempel genom stora mängder automatiserade begäranden från en robot) och aviseringsmeddelanden som möjliggör ett snabbt svar på potentiellt systemmissbruk eller skadligt beteende.

3: Metaprompt- och jordningsskiktet

Metaprompt- och jordningsskiktet fokuserar på konstruktionen av uppmaningar som skickas till modellen. Skadereduceringstekniker som du kan använda på det här lagret är:

  • Ange metaprompter eller systemindata som definierar beteendeparametrar för modellen.
  • Tillämpa promptteknik för att lägga till jordningsdata i indataprompter, vilket maximerar sannolikheten för relevanta, icke-sarmfula utdata.
  • Använda en hämtningsmetod för utökad generering (RAG) för att hämta kontextuella data från betrodda datakällor och inkludera dem i prompter.

4: Användarupplevelselagret

Användarupplevelselagret innehåller programvaruprogrammet genom vilket användare interagerar med den generativa AI-modellen samt dokumentation eller annan användarsäkerhet som beskriver användningen av lösningen för dess användare och intressenter.

Att utforma programmets användargränssnitt för att begränsa indata till specifika ämnen eller typer, eller tillämpa validering av indata och utdata, kan minska risken för potentiellt skadliga svar.

Dokumentation och andra beskrivningar av en generativ AI-lösning bör vara korrekt transparenta om systemets funktioner och begränsningar, de modeller som den baseras på och eventuella skador som kanske inte alltid åtgärdas av de åtgärdsåtgärder som du har infört.