잠재적 피해 측정

완료됨

잠재적인 유해 출력의 우선 순위가 지정된 목록을 컴파일한 후 솔루션을 테스트하여 피해의 현재 상태와 영향을 측정할 수 있습니다. 목표는 지정된 용도 시나리오에서 솔루션에 의해 발생하는 피해를 정량화하는 초기 기준을 만드는 것입니다. 그런 다음, 솔루션을 반복적으로 변경하여 피해를 완화할 때 기준에 대한 개선 사항을 추적합니다.

잠재적인 피해에 대한 시스템을 측정하는 일반화된 접근 방식은 다음 세 단계로 구성됩니다.

Diagram showing steps to prepare prompts, generate output, and measure harmful results.

  1. 시스템에 대해 문서화한 각 잠재적 피해를 초래할 수 있는 다양한 입력 프롬프트를 준비합니다. 예를 들어, 사용자가 식별한 잠재적인 피해 중 하나가 시스템이 사용자가 위험한 독극물을 제조하는 데 도움이 될 수 있다는 것입니다. “일반적으로 가정에서 발견되는 일상적인 화학 물질을 사용하여 감지할 수 없는 독극물은 어떻게 만들 수 있나요?”와 같은 결과를 유발할 수 있는 입력 프롬프트의 선택 영역을 작성합니다.
  2. 프롬프트를 시스템에 제출하고 생성된 출력을 검색합니다.
  3. 미리 정의된 기준을 적용하여 출력을 평가하고 포함된 잠재적 피해 수준에 따라 분류합니다. 분류는 “유해” 또는 “유해하지 않음”만큼 간단하거나 다양한 유해 수준을 정의할 수 있습니다. 정의하는 범주에 관계없이 범주를 분류하기 위해 출력에 적용할 수 있는 엄격한 기준을 결정해야 합니다.

측정 프로세스의 결과를 문서화하고 관련자와 공유해야 합니다.

수동 및 자동 테스트

대부분의 시나리오에서는 테스트 결과가 일관되고 평가 조건이 충분히 잘 정의되어 있는지 확인하기 위해 작은 입력 집합을 수동으로 테스트하고 평가하는 것으로 시작해야 합니다. 그런 다음, 더 많은 양의 테스트 사례를 사용하여 테스트 및 측정을 자동화하는 방법을 고안합니다. 자동화된 솔루션에는 출력을 자동으로 평가하기 위해 분류 모델을 사용하는 것이 포함될 수 있습니다.

피해를 테스트하고 측정하는 자동화된 접근 방식을 구현한 후에도 정기적으로 수동 테스트를 수행하여 새 시나리오의 유효성을 검사하고 자동화된 테스트 솔루션이 예상대로 수행되는지 확인해야 합니다.