Risico's en veiligheidsbewaking gebruiken in Azure OpenAI Studio (preview)
Wanneer u een Azure OpenAI-modelimplementatie met een inhoudsfilter gebruikt, kunt u de resultaten van de filteractiviteit controleren. U kunt deze informatie gebruiken om uw filterconfiguratie verder aan te passen aan uw specifieke bedrijfsbehoeften en verantwoordelijke AI-principes.
Azure OpenAI Studio biedt een dashboard voor risico's en veiligheid voor elk van uw implementaties die gebruikmaken van een configuratie voor inhoudsfilters.
Toegangsrisico's en veiligheidsbewaking
Voor toegang tot Risico's en veiligheidsbewaking hebt u een Azure OpenAI-resource nodig in een van de ondersteunde Azure-regio's: VS - oost, Zwitserland - noord, Frankrijk - centraal, Zweden - centraal, Canada - oost. U hebt ook een modelimplementatie nodig die gebruikmaakt van een inhoudsfilterconfiguratie.
Ga naar Azure OpenAI Studio en meld u aan met de referenties die zijn gekoppeld aan uw Azure OpenAI-resource. Selecteer het tabblad Implementaties aan de linkerkant en selecteer vervolgens uw modelimplementatie in de lijst. Selecteer op de pagina van de implementatie het tabblad Risico's en veiligheid bovenaan.
Inhoudsdetectie
In het deelvenster Inhoudsdetectie ziet u informatie over inhoudsfilteractiviteit. De configuratie van het inhoudsfilter wordt toegepast zoals beschreven in de documentatie voor inhoudsfilters.
Rapportbeschrijving
Inhoudsfiltergegevens worden op de volgende manieren weergegeven:
- Totaal aantal geblokkeerde aanvragen en bloksnelheid: in deze weergave ziet u een globale weergave van de hoeveelheid en snelheid van inhoud die in de loop van de tijd wordt gefilterd. Dit helpt u trends van schadelijke aanvragen van gebruikers te begrijpen en eventuele onverwachte activiteiten te zien.
- Geblokkeerde aanvragen per categorie: in deze weergave wordt de hoeveelheid inhoud weergegeven die voor elke categorie is geblokkeerd. Dit is een all-up statistiek van schadelijke aanvragen in het geselecteerde tijdsbereik. Het ondersteunt momenteel de schadecategorieën haat, seksueel, zelfschadig en geweld.
- Bloksnelheid in de loop van de tijd per categorie: in deze weergave wordt de bloksnelheid voor elke categorie in de loop van de tijd weergegeven. Het ondersteunt momenteel de schadecategorieën haat, seksueel, zelfschadig en geweld.
- Ernstverdeling per categorie: in deze weergave worden de ernstniveaus weergegeven die voor elke categorie schade zijn gedetecteerd, in het hele geselecteerde tijdsbereik. Dit is niet beperkt tot geblokkeerde inhoud, maar bevat eerder alle inhoud die is gemarkeerd door de inhoudsfilters.
- Ernstfrequentieverdeling in de loop van de tijd per categorie: in deze weergave worden de frequenties van de gedetecteerde ernstniveaus in de loop van de tijd weergegeven, voor elke schadecategorie. Selecteer de tabbladen om te schakelen tussen ondersteunde categorieën.
Aanbevolen acties
Pas de configuratie van uw inhoudsfilter aan zodat deze verder aansluit bij de bedrijfsbehoeften en verantwoordelijke AI-principes.
Mogelijk misbruik van gebruikersdetectie
Het deelvenster mogelijk misbruik van gebruikersdetectie maakt gebruik van misbruikrapportage op gebruikersniveau om informatie weer te geven over gebruikers waarvan het gedrag heeft geresulteerd in geblokkeerde inhoud. Het doel is om u te helpen de bronnen van schadelijke inhoud te bekijken, zodat u responsieve acties kunt ondernemen om ervoor te zorgen dat het model op een verantwoorde manier wordt gebruikt.
Als u mogelijk misbruik van gebruikersdetectie wilt gebruiken, hebt u het volgende nodig:
- Er is een inhoudsfilterconfiguratie toegepast op uw implementatie.
- U moet gebruikers-id-gegevens verzenden in uw chat-voltooiingsaanvragen (zie bijvoorbeeld de gebruikersparameter van de Voltooiings-API).
Let op
Gebruik GUID-tekenreeksen om afzonderlijke gebruikers te identificeren. Neem geen gevoelige persoonlijke gegevens op in het veld 'gebruiker'.
- Een Azure Data Explorer-database die is ingesteld voor het opslaan van de resultaten van de gebruikersanalyse (instructies hieronder).
Uw Azure Data Explorer-database instellen
Om de gegevensprivacy van gebruikersgegevens te beschermen en de machtiging van de gegevens te beheren, ondersteunen we de optie voor onze klanten om hun eigen opslag te gebruiken om gedetailleerde mogelijk misbruikte inzichten over gebruikersdetectie (inclusief gebruikers-GUID en statistieken over schadelijke aanvragen per categorie) op te halen die op een compatibele manier en met volledig beheer zijn opgeslagen. Volg deze stappen om deze in te schakelen:
- Navigeer in Azure OpenAI Studio naar de modelimplementatie waarmee u misbruikanalyse van gebruikers wilt instellen en selecteer Een gegevensarchief toevoegen.
- Vul de vereiste gegevens in en selecteer Opslaan. U wordt aangeraden een nieuwe database te maken om de analyseresultaten op te slaan.
- Nadat u het gegevensarchief hebt verbonden, voert u de volgende stappen uit om toestemming te verlenen voor het schrijven van analyseresultaten naar de verbonden database:
- Ga naar de pagina van uw Azure OpenAI-resource in Azure Portal en kies het tabblad Identiteit .
- Schakel de status in op Aan voor door het systeem toegewezen identiteit en kopieer de id die wordt gegenereerd.
- Ga naar uw Azure Data Explorer-resource in Azure Portal, kies databases en kies vervolgens de specifieke database die u hebt gemaakt om resultaten van gebruikersanalyse op te slaan.
- Selecteer machtigingen en voeg een beheerdersrol toe aan de database.
- Plak de Azure OpenAI-identiteit die in de vorige stap is gegenereerd en selecteer de identiteit waarnaar is gezocht. Nu is de identiteit van uw Azure OpenAI-resource gemachtigd om het opslagaccount te lezen/schrijven.
- Verwijs toegang tot de verbonden Azure Data Explorer-database aan de gebruikers die de analyseresultaten moeten bekijken:
- Ga naar de Azure Data Explorer-resource die u hebt verbonden, kies toegangsbeheer en voeg een lezerrol toe van het Azure Data Explorer-cluster voor de gebruikers die toegang nodig hebben tot de resultaten.
- Kies databases en kies de specifieke database die is verbonden met het opslaan van misbruikanalyseresultaten op gebruikersniveau. Kies machtigingen en voeg de rol lezer van de database toe voor de gebruikers die toegang nodig hebben tot de resultaten.
Rapportbeschrijving
De mogelijk beledigende gebruikersdetectie is afhankelijk van de gebruikersgegevens die klanten verzenden met hun Azure OpenAI API-aanroepen, samen met de aanvraaginhoud. De volgende inzichten worden weergegeven:
- Totaal aantal mogelijk aanstootgevende gebruikers: in deze weergave ziet u het aantal gedetecteerde mogelijk beledigende gebruikers in de loop van de tijd. Dit zijn gebruikers voor wie een misbruikpatroon is gedetecteerd en wie een hoog risico kan veroorzaken.
- Lijst met mogelijk beledigende gebruikers: deze weergave is een gedetailleerde lijst met mogelijk misbruikende gebruikers. Het geeft de volgende informatie voor elke gebruiker:
- UserGUID: Dit wordt door de klant verzonden via het veld 'gebruiker' in Azure OpenAI-API's.
- Misbruikscore: dit is een afbeelding die wordt gegenereerd door het model dat de aanvragen en het gedrag van elke gebruiker analyseert. De score wordt genormaliseerd tot 0-1. Een hogere score geeft een hoger misbruikrisico aan.
- Trend misbruikscore: De wijziging in de misbruikscore tijdens het geselecteerde tijdsbereik.
- Evaluatiedatum: de datum waarop de resultaten zijn geanalyseerd.
- Totale verhouding van misbruikaanvraag/aantal
- Misbruikverhouding/aantal per categorie
Aanbevolen acties
Combineer deze gegevens met verrijkte signalen om te valideren of de gedetecteerde gebruikers echt beledigend zijn of niet. Als dat zo is, moet u responsieve acties ondernemen, zoals het beperken of onderbreken van de gebruiker om ervoor te zorgen dat uw toepassing verantwoordelijk wordt gebruikt.
Volgende stappen
Maak of bewerk vervolgens een inhoudsfilterconfiguratie in Azure OpenAI Studio.