Zmírnění potenciálních škod
Po určení směrného plánu a způsobu měření škodlivého výstupu vygenerovaného řešením můžete podniknout kroky ke zmírnění potenciálních škod a v případě potřeby znovu otestovat upravený systém a porovnat úrovně škod oproti směrnému plánu.
Zmírnění potenciálních škod v řešení generující umělé inteligence zahrnuje vícevrstvý přístup, ve kterém lze techniky zmírnění rizik použít na každé ze čtyř vrstev, jak je znázorněno zde:
- Model
- systém Sejf ty
- Metaprompt a uzemnění
- Uživatelské prostředí
1: Vrstva modelu
Vrstva modelu se skládá z jednoho nebo více modelů generující umělé inteligence v srdci vašeho řešení. Vaše řešení může být například postaveno na modelu, jako je GPT-4.
Omezení rizik, která můžete použít na vrstvě modelu, patří:
- Výběr modelu, který je vhodný pro zamýšlené použití řešení Například GPT-4 může být výkonný a všestranný model v řešení, které je nutné pouze ke klasifikaci malých, specifických textových vstupů, jednodušší model může poskytovat požadované funkce s nižším rizikem generování škodlivého obsahu.
- Vyladění základního modelu s vlastními trénovacími daty tak, aby odpovědi, které generuje, byly pro váš scénář řešení relevantnější a pravděpodobnější.
2: Vrstva bezpečnostního systému
Vrstva bezpečnostního systému zahrnuje konfigurace a možnosti na úrovni platformy, které pomáhají zmírnit škody. Azure AI Studio například zahrnuje podporu filtrů obsahu, které používají kritéria pro potlačení výzev a odpovědí na základě klasifikace obsahu do čtyř úrovní závažnosti (bezpečné, nízké, střední a vysoké) pro čtyři kategorie potenciálních škod (nenávist, sexuální, násilí a sebepoškozování).
Další zmírnění bezpečnostních vrstev systému může zahrnovat algoritmy detekce zneužití, které určují, jestli je řešení systematicky zneužívané (například prostřednictvím velkých objemů automatizovaných požadavků od robota) a oznámení výstrah, která umožňují rychlou reakci na potenciální zneužití systému nebo škodlivé chování.
3: Metaprompt a uzemnění vrstvy
Vrstva metapromptu a uzemnění se zaměřuje na výstavbu výzev odeslaných do modelu. Mezi techniky zmírnění škod, které můžete použít v této vrstvě, patří:
- Určení metapromptů nebo systémových vstupů, které definují parametry chování pro model.
- Použití přípravy výzvy k přidání zemských dat do vstupních výzev, maximalizace pravděpodobnosti relevantního, neharmního výstupu.
- Použití přístupu k načtení rozšířené generace (RAG) k načtení kontextových dat z důvěryhodných zdrojů dat a jejich zahrnutí do výzev.
4: Vrstva uživatelského prostředí
Vrstva uživatelského prostředí zahrnuje softwarovou aplikaci, prostřednictvím které uživatelé komunikují s modelem a dokumentací generující AI nebo jiným uživatelským zajištěním, které popisuje použití řešení pro své uživatele a zúčastněné strany.
Návrh uživatelského rozhraní aplikace tak, aby omezil vstupy na konkrétní předměty nebo typy, nebo použití vstupního a výstupního ověření může zmírnit riziko potenciálně škodlivých odpovědí.
Dokumentace a další popisy řešení generující umělé inteligence by měly být správně transparentní o možnostech a omezeních systému, modelech, na kterých je založen, a případné škody, které nemusí být vždy vyřešeny opatřeními pro zmírnění rizik, která jste zavedli.