Delen via


Menselijke beoordeling voor automatisering met een prompt

In dit artikel wordt de cruciale rol van menselijke beoordeling benadrukt bij de implementatie van de functie Tekst maken met GPT in Power Automate. Deze functie maakt gebruik van het Tekstgeneratie-model van AI Builder, mogelijk gemaakt door Azure OpenAI Service. Hoewel deze modellen zeer effectief zijn, kunnen ze soms misleidende of verzonnen informatie genereren en zijn ze vatbaar voor snelle injectieaanvallen.

Belangrijk

  • AI Builder prompts worden uitgevoerd op GPT-3.5 Turbo- en GPT-4 (preview)-modellen die worden aangestuurd door Azure OpenAI Service.
  • Deze mogelijkheid is beperkt tot bepaalde regio's.
  • Deze mogelijkheid kan onderworpen zijn aan gebruikslimieten of capaciteitsbeperking.

Prompt-injectieaanvallen

Een prompt-injectieaanval vindt plaats wanneer een derde partij het inherente vertrouwen van het model in alle invoerbronnen misbruikt. De aanvaller injecteert een prompt in de inhoud waarvan een legitieme gebruiker de AI-oplossing vraagt om ermee te communiceren, wat leidt tot een wijziging in de output van de AI-oplossing en mogelijk ook in de acties ervan.

Overweeg bijvoorbeeld een scenario waarin een burgerontwikkelaar de actie Tekst maken met GPT gebruikt om reacties te formuleren op klachten van klanten die zijn verzameld via verschillende platforms, zoals e-mails, sociale media of forums. Een aanvaller kan vanuit een van deze bronnen een prompt in de inhoud invoegen. Dit scenario zou het model kunnen misleiden, zodat het een reactie genereert die verschilt van de beoogde reactie. De reactie kan ongepast, onjuist of schadelijk zijn. Het verzenden van onjuiste informatie naar klanten kan een negatieve invloed hebben op de reputatie van het bedrijf en op de klantrelaties.

Fabricatie in AI-modellen

Fabricage, ook wel hallucinatie genoemd, is een andere uitdaging waarmee AI-modellen worden geconfronteerd, waaronder het tekstgeneratiemodel. Fabricage doet zich voor wanneer het AI-model informatie genereert die niet is gebaseerd op verstrekte input of reeds bestaande gegevens en in wezen inventieve of hallucinerende informatie bevat.

Als het AI-model bijvoorbeeld wordt gevraagd een samenvatting van een historische gebeurtenis te genereren op basis van een bepaalde tekst, kan deze details of gebeurtenissen bevatten die niet in de brontekst zijn vermeld. Een stroom maakt bijvoorbeeld een samenvatting van een vergadering op basis van het transcript van de opname. De invoergegevens omvatten details over de aanwezigen, de besproken artikelen en de genomen beslissingen. Het model kan echter een samenvatting genereren met een actiepunt of een besluit dat nooit tijdens de vergadering is besproken. Deze situatie is een geval van fabricage, waarbij het model informatie heeft verzonnen die niet voorkomt in de invoergegevens.

Om het risico op fabricage te beperken, is het van cruciaal belang om verantwoorde AI-praktijken te implementeren. Dit omvat het rigoureus testen van de prompt en de stroom, het voorzien van het model van zoveel mogelijk basisinformatie en uiteindelijk het implementeren van een robuust systeem voor menselijk toezicht.

Risico’s aanpakken door middel van verantwoorde AI-praktijken

Wij pleiten voor verantwoorde AI-praktijken als middel om de risico’s te beperken. Ondanks dat er strategieën bestaan ​​om de door het model geproduceerde inhoud te modereren, blijft het beheersen van de neiging van het model om verzonnen reacties te genereren of te bezwijken voor prompt injectieaanvallen een complexe uitdaging. Wij erkennen deze risico's en herbevestigen onze toewijding aan menselijk toezicht en controle.

Als erkenning van de noodzaak van naadloze automatisering verbeteren we proactief onze veiligheidssystemen en streven we naar een beter begrip van deze uitdagingen. Ons doel is om het model voor genereren van tekst verder te verfijnen met passende veiligheidsmaatregelen, in lijn met onze principes van verantwoordelijke AI by design, waarbij we waar mogelijk de controle teruggeven aan ontwikkelaars.

Verantwoorde AI - Veelgestelde vragen