Identifikace potenciálních škod

Dokončeno

První fází zodpovědného procesu generování AI je identifikace potenciálních škod, které by mohly ovlivnit vaše plánované řešení. V této fázi jsou čtyři kroky, jak je znázorněno tady:

Diagram znázorňující kroky pro identifikaci, stanovení priorit, testování a sdílení potenciálních škod

  1. Identifikace potenciálních škod
  2. Stanovení priorit zjištěných škod
  3. Testování a ověření prioritizovaných škod
  4. Zdokumentujte a sdílejte ověřené škody

1: Identifikace potenciálních škod

Potenciální škody, které jsou relevantní pro vaše řešení generující umělé inteligence, závisí na několika faktorech, včetně konkrétních služeb a modelů používaných k vygenerování výstupu a také všech jemně vyladěných nebo uzemněných dat používaných k přizpůsobení výstupů. Mezi běžné typy potenciálních škod v řešení generující umělé inteligence patří:

  • Generování obsahu, který je urážlivý, pejorativní nebo nediskriminační.
  • Generování obsahu, který obsahuje faktické nepřesnosti.
  • Generování obsahu, který podporuje nezákonné nebo neetické chování nebo postupy.

Pokud chcete plně porozumět známým omezením a chování služeb a modelů ve vašem řešení, projděte si dostupnou dokumentaci. Služba Azure OpenAI například obsahuje poznámku k transparentnosti, kterou můžete použít k pochopení konkrétních aspektů souvisejících se službou a modelů, které zahrnuje. Vývojáři jednotlivých modelů mohou navíc poskytnout dokumentaci, jako je systémová karta OpenAI pro model GPT-4.

Zvažte kontrolu pokynů v průvodci posouzením dopadu umělé inteligence Microsoftu a použitím přidružené šablony zodpovědného posouzení dopadu AI k dokumentaci potenciálních škod.

Projděte si informace a pokyny k prostředkům, které používáte k identifikaci potenciálních škod.

2: Stanovení priority škod

Pro každou potenciální škodu, kterou jste identifikovali, vyhodnoťte pravděpodobnost výskytu a výslednou úroveň dopadu, pokud ano. Tyto informace pak použijte k určení priority škod s nejpravděpodobnějším a ovlivněným poškozením. Toto stanovení priority vám umožní zaměřit se na hledání a zmírnění nejvíce škodlivých rizik ve vašem řešení.

Stanovení priorit musí zohlednit zamýšlené použití řešení a také potenciál zneužití; a může být subjektivní. Předpokládejme například, že vyvíjíte inteligentní kopírovací graf kuchyně, který poskytuje pomoc s receptem kuchařům a amatérským kuchařům. Mezi potenciální škody může patřit:

  • Řešení poskytuje nepřesné doby vaření, což vede k nevyužitým potravinám, které mohou způsobit nemoc.
  • Po zobrazení výzvy poskytuje řešení recept na smrtelný jed, který lze vyrobit z každodenních ingrediencí.

I když ani jeden z těchto výsledků není žádoucí, můžete se rozhodnout, že potenciál řešení podporovat vytváření smrtelného jedu má vyšší dopad než potenciál vytvářet nedostatečně zakódované potraviny. Vzhledem k základnímu scénáři použití řešení však můžete předpokládat, že frekvence, s jakou jsou navrhované nepřesné doby vaření, bude pravděpodobně mnohem vyšší než počet uživatelů, kteří explicitně požadují o jed recept. Konečné stanovení priority je předmětem diskuse pro vývojový tým, který může zahrnovat konzultační zásady nebo právní odborníky, aby bylo možné dostatečně určit prioritu.

3: Testování a ověření přítomnosti škod

Teď, když máte seznam s prioritami, můžete otestovat své řešení a ověřit, že dojde k škodám; a pokud ano, za jakých podmínek. Testování může také odhalit přítomnost dříve neidentifikovaných škod, které můžete přidat do seznamu.

Běžným přístupem k testování potenciálních škod nebo ohrožení zabezpečení v softwarovém řešení je použití "červeného týmu" testování, ve kterém tým testerů záměrně tester testuje řešení slabých stránek a snaží se vyvolat škodlivé výsledky. Ukázkové testy pro řešení smart kitchen copilot probírané dříve můžou zahrnovat žádosti o jedovaté recepty nebo rychlé recepty, které obsahují přísady, které by měly být důkladně uvařené. Úspěch červeného týmu by měl být zdokumentován a zkontrolován, aby pomohl určit realistickou pravděpodobnost škodlivého výstupu, ke kterému dochází při použití řešení.

Poznámka:

Red teaming je strategie, která se často používá k nalezení ohrožení zabezpečení nebo jiných slabých stránek, které můžou ohrozit integritu softwarového řešení. Rozšířením tohoto přístupu najděte škodlivý obsah z generující umělé inteligence, můžete implementovat zodpovědný proces AI, který vychází ze stávajících postupů kybernetické bezpečnosti a doplňuje ho.

Další informace o red Teaming for generative AI solutions, see Introduction to red teaming large language models (LLMs) in the Azure OpenAI Service documentation.

4: Dokumentovat a sdílet podrobnosti o škodách

Když jste shromáždili důkazy pro podporu přítomnosti potenciálních škod v řešení, zdokumentujte podrobnosti a sdílejte je se zúčastněnými stranami. V případě zjištění nových škod by se měl zachovat a přidat seznam prioritních škod.