Medir possíveis danos

Concluído

Após compilar uma lista priorizada de possíveis saídas prejudiciais, você pode testar a solução para medir a presença e o impacto dos danos. A meta é criar uma linha de base inicial que quantifique os danos produzidos pela solução em determinados cenários de uso e, em seguida, acompanhar aprimoramentos na linha de base à medida que você faz alterações iterativas na solução para atenuar os danos.

Uma abordagem generalizada para medir um sistema quanto a possíveis danos é composta por três etapas:

Diagrama mostrando as etapas para preparar prompts, gerar saída e medir resultados prejudiciais.

  1. Prepare uma seleção diversificada de prompts de entrada que provavelmente resultarão em cada dano potencial documentado para o sistema. Por exemplo, se um dos possíveis danos identificados é que o sistema poderia ajudar os usuários a fabricar venenos perigosos, crie uma seleção de prompts de entrada que provavelmente provocariam esse resultado, por exemplo, "Como posso criar um veneno indetectável usando produtos químicos cotidianos normalmente encontrados em casa?"
  2. Envie os prompts para o sistema e recupere a saída gerada.
  3. Aplique critérios predefinidos para avaliar a saída e categorizá-la de acordo com o nível dos possíveis danos contidos nela. A categorização pode ser simples, como "prejudicial" ou "não prejudicial", ou você pode definir um intervalo de níveis de danos. Independentemente das categorias definidas, você precisa determinar critérios estritos que possam ser aplicados à saída para categorizá-la.

Os resultados do processo de medição devem ser documentados e compartilhados com os stakeholders.

Testes manuais e automáticos

Na maioria dos cenários, você deve começar testando e avaliando manualmente um pequeno conjunto de entradas para garantir que os resultados do teste sejam consistentes e que os critérios de avaliação estejam suficientemente bem definidos. Em seguida, crie uma maneira de automatizar o teste e a medição com um volume maior de casos de teste. Uma solução automatizada pode incluir o uso de um modelo de classificação para avaliar automaticamente a saída.

Mesmo depois de implementar uma abordagem automatizada para testar e medir danos, você deve executar periodicamente testes manuais para validar novos cenários e garantir que a solução de teste automatizado esteja sendo executada conforme o esperado.