잠재적 피해 식별

5분

책임 있는 생성 AI 프로세스의 첫 번째 단계는 계획된 솔루션에 영향을 줄 수 있는 잠재적인 피해를 식별하는 것입니다. 이 스테이지에는 다음과 같은 네 가지 단계가 있습니다.

Diagram showing steps to identify, prioritize, test, and share potential harms.

잠재적 피해 식별
식별된 피해 우선 순위 지정
우선 순위가 지정된 피해 테스트 및 확인
확인된 피해 문서화 및 공유

1: 잠재적 피해 식별

생성 AI 솔루션과 관련된 잠재적 피해는 출력을 생성하는 데 사용되는 특정 서비스 및 모델뿐만 아니라 출력을 사용자 지정하는 데 사용되는 미세 조정 또는 접지 데이터를 비롯한 여러 요인에 따라 달라집니다. 생성 AI 솔루션에서 잠재적인 피해의 몇 가지 일반적인 유형은 다음과 같습니다.

공격적이거나, 조롱적이거나, 차별적인 콘텐츠를 생성합니다.
팩트 부정확성이 포함된 콘텐츠를 생성합니다.
불법 또는 비윤리적인 행동이나 관행을 조장하거나 지원하는 콘텐츠를 생성합니다.

솔루션에서 서비스 및 모델의 알려진 제한 사항 및 동작을 완전히 이해하려면 사용 가능한 설명서를 참조하세요. 예를 들어 Azure OpenAI Service에는 투명성 고지가 포함되어 있습니다. 서비스 및 서비스에 포함된 모델과 관련된 특정 고려 사항을 이해하는 데 사용할 수 있습니다. 또한 개별 모델 개발자는 GPT-4 모델의 OpenAI 시스템 카드와 같은 설명서를 제공할 수 있습니다.

Microsoft 책임 있는 AI 영향 평가 가이드의 지침을 검토하고 관련 책임 있는 AI 영향 평가 템플릿을 사용하여 잠재적인 피해를 문서화하는 것이 좋습니다.

2: 피해 우선 순위 지정

식별한 각 잠재적 피해에 대해 발생 가능성과 발생할 경우 결과 영향 수준을 평가합니다. 그런 다음 이 정보를 사용하여 가장 가능성이 높고 영향을 미칠 수 있는 피해의 우선 순위를 지정합니다. 이 우선 순위를 지정하면 솔루션에서 가장 유해한 위험을 찾고 완화하는 데 집중할 수 있습니다.

우선 순위 지정은 솔루션의 의도된 사용과 오용 가능성을 고려해야 합니다. 주관적일 수 있습니다. 예를 들어 전문 요리사와 아마추어 요리사에게 레시피 지원을 제공하는 스마트 주방 Copilot을 개발하고 있다고 가정해 보겠습니다. 잠재적 피해는 다음과 같습니다.

이 솔루션은 부정확한 조리 시간을 제공하여 질병을 유발할 수 있는 덜 익힌 음식을 초래합니다.
메시지가 표시되면 솔루션은 일상적인 재료로 제조할 수 있는 치명적인 독에 대한 레시피를 제공합니다.

이러한 결과 중 어느 것도 바람직하지 않지만 치명적인 독의 생성을 지원하는 솔루션의 잠재력이 덜 익힌 음식을 만들 가능성보다 더 큰 영향을 미친다고 결정할 수 있습니다. 그러나 솔루션의 핵심 용도 시나리오를 고려할 때 부정확한 조리 시간이 제안되는 빈도가 독극물 레시피를 명시적으로 요청하는 사용자 수보다 훨씬 높을 수 있다고 가정할 수도 있습니다. 최종 우선 순위 결정은 충분히 우선 순위를 정하기 위해 컨설팅 정책 또는 법률 전문가를 포함할 수 있는 개발 팀의 논의 대상입니다.

3: 피해의 현재 상태 테스트 및 확인

우선 순위가 지정된 목록이 있으므로 솔루션을 테스트하여 피해가 발생하는지 확인할 수 있으며 이러한 경우에는 어떤 조건이 있는지 확인할 수 있다. 테스트는 목록에 추가할 수 있는 이전에 확인되지 않은 피해의 현재 상태를 나타낼 수도 있습니다.

소프트웨어 솔루션에서 잠재적인 피해 또는 취약성을 테스트하는 일반적인 접근 방식은 테스터 팀이 의도적으로 약점의 솔루션을 검색하고 유해한 결과를 생성하려고 시도하는 “레드 팀” 테스트를 사용하는 것입니다. 앞에서 설명한 스마트 주방 Copilot 솔루션에 대한 예제 테스트에는 철저하게 요리해야 하는 재료가 포함된 독극물 레시피 또는 빠른 조리법을 요청하는 것을 포함될 수 있습니다. 레드 팀의 성공을 문서화하고 검토하여 솔루션을 사용할 때 유해한 출력이 발생할 현실적인 가능성을 결정하는 데 도움을 주어야 합니다.

참고

레드 팀은 종종 소프트웨어 솔루션의 무결성을 손상할 수 있는 보안 취약성 또는 기타 약점을 찾는 데 사용되는 전략입니다. 생성 AI에서 유해한 콘텐츠를 찾기 위해 이 접근 방식을 확장하면 기존 사이버 보안 사례를 기반으로 하고 보완하는 책임 있는 AI 프로세스를 구현할 수 있습니다.

생성 AI 솔루션의 레드 팀에 대한 자세한 내용은 Azure OpenAI Service 설명서에서 LLM(대규모 언어 모델)을 레드 팀에 소개를 참조하세요.

솔루션에서 잠재적인 피해의 현재 상태를 지원하기 위해 증거를 수집한 경우 세부 정보를 문서화하고 관련자와 공유합니다. 그런 다음 우선 순위가 지정된 피해 목록을 유지하고 새로운 피해가 확인되면 추가해야 합니다.

계속

잠재적 피해 식별

1: 잠재적 피해 식별

2: 피해 우선 순위 지정

3: 피해의 현재 상태 테스트 및 확인

4: 피해의 세부 정보 문서화 및 공유

피드백