Zmírnění potenciálních škod

Dokončeno

Po určení směrného plánu a způsobu měření škodlivého výstupu vygenerovaného řešením můžete podniknout kroky ke zmírnění potenciálních škod a v případě potřeby znovu otestovat upravený systém a porovnat úrovně škod oproti směrnému plánu.

Zmírnění potenciálních škod v řešení generující umělé inteligence zahrnuje vícevrstvý přístup, ve kterém lze techniky zmírnění rizik použít na každé ze čtyř vrstev, jak je znázorněno zde:

Diagram znázorňující model, bezpečnostní systém, aplikaci a umístění vrstev generujícího řešení umělé inteligence

  1. Model
  2. systém Sejf ty
  3. Metaprompt a uzemnění
  4. Uživatelské prostředí

1: Vrstva modelu

Vrstva modelu se skládá z jednoho nebo více modelů generující umělé inteligence v srdci vašeho řešení. Vaše řešení může být například postaveno na modelu, jako je GPT-4.

Omezení rizik, která můžete použít na vrstvě modelu, patří:

  • Výběr modelu, který je vhodný pro zamýšlené použití řešení Například GPT-4 může být výkonný a všestranný model v řešení, které je nutné pouze ke klasifikaci malých, specifických textových vstupů, jednodušší model může poskytovat požadované funkce s nižším rizikem generování škodlivého obsahu.
  • Vyladění základního modelu s vlastními trénovacími daty tak, aby odpovědi, které generuje, byly pro váš scénář řešení relevantnější a pravděpodobnější.

2: Vrstva bezpečnostního systému

Vrstva bezpečnostního systému zahrnuje konfigurace a možnosti na úrovni platformy, které pomáhají zmírnit škody. Azure AI Studio například zahrnuje podporu filtrů obsahu, které používají kritéria pro potlačení výzev a odpovědí na základě klasifikace obsahu do čtyř úrovní závažnosti (bezpečné, nízké, střední a vysoké) pro čtyři kategorie potenciálních škod (nenávist, sexuální, násilí a sebepoškozování).

Další zmírnění bezpečnostních vrstev systému může zahrnovat algoritmy detekce zneužití, které určují, jestli je řešení systematicky zneužívané (například prostřednictvím velkých objemů automatizovaných požadavků od robota) a oznámení výstrah, která umožňují rychlou reakci na potenciální zneužití systému nebo škodlivé chování.

3: Metaprompt a uzemnění vrstvy

Vrstva metapromptu a uzemnění se zaměřuje na výstavbu výzev odeslaných do modelu. Mezi techniky zmírnění škod, které můžete použít v této vrstvě, patří:

  • Určení metapromptů nebo systémových vstupů, které definují parametry chování pro model.
  • Použití přípravy výzvy k přidání zemských dat do vstupních výzev, maximalizace pravděpodobnosti relevantního, neharmního výstupu.
  • Použití přístupu k načtení rozšířené generace (RAG) k načtení kontextových dat z důvěryhodných zdrojů dat a jejich zahrnutí do výzev.

4: Vrstva uživatelského prostředí

Vrstva uživatelského prostředí zahrnuje softwarovou aplikaci, prostřednictvím které uživatelé komunikují s modelem a dokumentací generující AI nebo jiným uživatelským zajištěním, které popisuje použití řešení pro své uživatele a zúčastněné strany.

Návrh uživatelského rozhraní aplikace tak, aby omezil vstupy na konkrétní předměty nebo typy, nebo použití vstupního a výstupního ověření může zmírnit riziko potenciálně škodlivých odpovědí.

Dokumentace a další popisy řešení generující umělé inteligence by měly být správně transparentní o možnostech a omezeních systému, modelech, na kterých je založen, a případné škody, které nemusí být vždy vyřešeny opatřeními pro zmírnění rizik, která jste zavedli.