잠재적 피해 완화

5분

솔루션에서 생성된 유해한 출력을 측정하는 기준과 방법을 결정한 후 잠재적인 피해를 완화하는 조치를 취하고, 적절한 경우 수정된 시스템을 다시 테스트하고, 기준과 피해 수준을 비교할 수 있습니다.

생성 AI 솔루션의 잠재적 피해 완화에는 다음과 같이 4개 계층 각각에 완화 기술을 적용할 수 있는 계층화된 접근 방식이 포함됩니다.

Diagram showing the model, safety system, application, and positioning layers of a generative AI solution.

모델
안전 시스템
메타 프롬프트 및 접지
사용자 환경

1: 모델 계층

모델 계층은 솔루션의 중심에 있는 생성 AI 모델로 구성됩니다. 예를 들어 GPT-4와 같은 모델을 중심으로 솔루션을 빌드할 수 있습니다.

모델 계층에서 적용할 수 있는 완화는 다음과 같습니다.

의도한 솔루션 용도에 적합한 모델을 선택합니다. 예를 들어 GPT-4는 강력하고 다양한 모델일 수 있지만 작고 특정 텍스트 입력을 분류하는 데만 필요한 솔루션에서는 더 단순한 모델이 유해한 콘텐츠 생성의 위험을 낮추면서 필요한 기능을 제공할 수 있습니다.
미세 조정은 자체 학습 데이터가 있는 기본 모델이므로 이를 생성하는 응답이 솔루션 시나리오와 관련성이 있으며 솔루션 시나리오에 대한 범위가 지정될 가능성이 높습니다.

2: 안전 시스템 계층

안전 시스템 계층에는 피해를 완화하는 데 도움이 되는 플랫폼 수준 구성 및 기능이 포함되어 있습니다. 예를 들어 Azure OpenAI Service에는 잠재적 피해(증오, 성적, 폭력, 자해)의 네 가지 범주에 대해 콘텐츠 분류에 따른 프롬프트 및 응답을 4가지 심각도 수준(안전, 낮음, 중간, 높음)으로 표시하지 않는 기준을 적용하는 콘텐츠 필터에 대한 지원이 포함되어 있습니다.

다른 안전 시스템 계층 완화에는 솔루션이 체계적으로 남용되고 있는지 확인하는 남용 탐지 알고리즘(예: 봇의 대량 자동화된 요청을 통해) 및 잠재적인 시스템 남용 또는 유해한 동작에 대해 신속하게 대응할 수 있는 하는 경고 알림이 포함될 수 있습니다.

3: 메타 프롬프트 및 접지 계층

메타 프롬프트 및 접지 계층은 모델에 제출되는 프롬프트의 생성에 중점을 둡니다. 이 계층에서 적용할 수 있는 피해 완화 기술은 다음과 같습니다.

모델에 대한 동작 매개 변수를 정의하는 메타프롬프트 지정 또는 시스템 입력 지정
프롬프트 엔지니어링 기술로 입력 프롬프트에 접지 데이터를 추가하여 최대한 관련성이 높고 유해하지 않은 출력 데이터를 가져옵니다.
RAG(검색 보강 생성) 접근 방식을 사용하여 신뢰할 수 있는 데이터 원본에서 상황에 맞는 데이터를 검색하고 프롬프트에 포함합니다.

4: 사용자 환경 계층

사용자 환경 계층에는 사용자가 생성 AI 모델과 상호 작용하는 소프트웨어 애플리케이션뿐만 아니라 사용자와 이해 관계자에게 솔루션 사용을 설명하는 설명서 또는 기타 사용자 참고 자료가 포함됩니다.

특정 주제나 형식에 대한 입력을 제한하도록 애플리케이션 사용자 인터페이스를 디자인하거나 입력 및 출력 유효성 검사를 적용하면 잠재적으로 유해한 응답의 위험을 줄일 수 있습니다.

생성 AI 솔루션의 설명서 및 기타 설명은 시스템의 기능과 제한 사항, 시스템의 기반이 되는 모델, 적용된 완화 조치로 항상 해결되지 않을 수 있는 잠재적 피해에 대해 적절하게 투명해야 합니다.

계속

잠재적 피해 완화

1: 모델 계층

2: 안전 시스템 계층

3: 메타 프롬프트 및 접지 계층

4: 사용자 환경 계층

피드백