Azure AI 스튜디오의 콘텐츠 필터링

아티클
09/04/2024

Azure AI 스튜디오에는 핵심 모델 및 DALL-E 이미지 생성 모델과 함께 작동하는 콘텐츠 필터링 시스템이 포함되어 있습니다.

Important

콘텐츠 필터링 시스템은 Azure OpenAI Service의 Whisper 모델에서 처리하는 프롬프트 및 완료에는 적용되지 않습니다. Azure OpenAI의 Whisper 모델에 대해 자세히 알아봅니다.

작동 방식

이 시스템은 Azure AI 콘텐츠 보안을 통해 구동되며, 유해한 콘텐츠의 출력을 감지하고 방지하기 위한 분류 모델 앙상블을 통해 프롬프트와 완료를 모두 실행하여 작동합니다. API 구성 및 애플리케이션 디자인의 변형은 완료 및 필터링 동작에 영향을 미칠 수 있습니다.

Azure OpenAI 모델 배포를 사용하면 기본 콘텐츠 필터를 사용하거나 고유한 콘텐츠 필터를 만들 수 있습니다(나중에 설명). 기본 콘텐츠 필터는 모델 카탈로그에서 Azure AI가 큐레이팅한 다른 텍스트 모델에도 사용할 수 있지만 이러한 모델에는 사용자 지정 콘텐츠 필터를 아직 사용할 수 없습니다. MaaS(Models as a Service)를 통해 사용할 수 있는 모델에는 콘텐츠 필터링이 기본적으로 사용되며 구성할 수 없습니다.

언어 지원

콘텐츠 필터링 모델은 영어, 독일어, 일본어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 중국어에 대해 학습되고 테스트되었습니다. 그러나 서비스는 다른 여러 언어로도 작동할 수 있지만 품질은 다를 수 있습니다. 모든 경우에 애플리케이션에 적합한지 확인하기 위해 자체 테스트를 수행해야 합니다.

콘텐츠 필터 만들기

Azure AI 스튜디오의 모든 모델 배포의 경우 기본 콘텐츠 필터를 직접 사용할 수 있지만 더 많은 제어 기능을 원할 수도 있습니다. 예를 들어, 필터를 더 엄격하거나 더 관대하게 만들거나 신속한 보호 및 보호자료감지와 같은 고급 기능을 사용하도록 설정할 수 있습니다.

콘텐츠 필터를 만들려면 다음 단계를 수행합니다.

AI 스튜디오로 이동하여 허브로 이동합니다. 그런 다음 왼쪽 탐색 메뉴에서 콘텐츠 필터 탭을 선택하고 콘텐츠 필터 만들기 단추를 선택합니다.
기본 정보 페이지에서 콘텐츠 필터의 이름을 입력합니다. 콘텐츠 필터와 연결할 연결을 선택합니다. 그런 후 다음을 선택합니다.
입력 필터 페이지에서 입력 프롬프트에 대한 필터를 설정할 수 있습니다. 각 필터 형식에 대한 작업 및 심각도 수준 임계값을 설정합니다. 이 페이지에서 기본 필터와 기타 필터(예: 탈옥 공격을 위한 프롬프트 쉴드)를 모두 구성합니다. 그런 후 다음을 선택합니다.

콘텐츠는 범주별로 주석을 추가하고 설정한 임계값에 따라 차단됩니다. 폭력, 혐오, 성적인 내용, 자해 범주에 속하는 경우 심각도가 높음, 중간, 낮음인 콘텐츠를 차단할 수 있도록 슬라이더를 조정합니다.
출력 필터 페이지에서 모델에서 생성된 모든 출력 콘텐츠에 적용되는 출력 필터를 구성할 수 있습니다. 이전과 같이 개별 필터를 구성합니다. 이 페이지에서는 모델에서 생성되는 콘텐츠를 거의 실시간으로 필터링하여 대기 시간을 줄일 수 있는 스트리밍 모드 옵션도 제공합니다. 완료되면 다음을 선택합니다.

콘텐츠는 각 범주에 의해 주석이 추가되고 임계값에 따라 차단됩니다. 폭력적인 콘텐츠, 혐오 콘텐츠, 성적인 콘텐츠, 자해 콘텐츠 범주의 경우 심각도가 같거나 높은 유해한 콘텐츠를 차단하도록 임계값을 조정합니다.
필요에 따라 배포 페이지에서 콘텐츠 필터를 배포와 연결할 수 있습니다. 선택한 배포에 이미 필터가 연결되어 있는 경우 해당 필터를 바꿀지 확인해야 합니다. 나중에 콘텐츠 필터를 배포와 연결할 수도 있습니다. 만들기를 실행합니다.

콘텐츠 필터링 구성은 AI 스튜디오의 허브 수준에서 만들어집니다. 구성 가능성에 대한 자세한 내용은 Azure OpenAI 문서를 참조하세요.
검토 페이지에서 설정을 검토한 다음, 만들기 필터를 선택합니다.

차단 목록을 필터로 사용

차단 목록을 입력 또는 출력 필터로 적용하거나 둘 다로 적용할 수 있습니다. 입력 필터 및/또는 출력 필터 페이지에서 차단 목록 옵션을 사용하도록 설정합니다. 드롭다운에서 하나 이상의 차단 목록을 선택하거나 기본 제공된 욕설 차단 목록을 사용합니다. 여러 차단 목록을 동일한 필터로 결합할 수 있습니다.

콘텐츠 필터 적용

필터 만들기 프로세스에서는 원하는 배포에 필터를 적용할 수 있는 옵션을 제공합니다. 언제든지 배포에서 콘텐츠 필터를 변경하거나 제거할 수도 있습니다.

배포에 콘텐츠 필터를 적용하려면 다음 단계를 수행합니다.

AI 스튜디오로 이동하여 프로젝트를 선택합니다.
배포를 선택하고 배포 중 하나를 선택한 다음, 편집을 선택합니다.
배포 업데이트 창에서 배포에 적용할 콘텐츠 필터를 선택합니다.

이제 플레이그라운드로 이동하여 콘텐츠 필터가 예상대로 작동하는지 테스트할 수 있습니다.

범주

범주	설명
증오	증오 범주는 인종, 민족, 국적, 성 정체성 및 표현, 성적 성향, 종교, 이민 상태, 능력 상태, 개인 외모 및 신체 크기 등을 포함하지만 이에 제한되지 않는 이러한 그룹의 특정 차별적 속성을 기반으로 개인 또는 정체성 그룹과 관련하여 경멸적이거나 차별적인 언어를 포함하는 언어 공격 또는 사용을 설명합니다.
성적	성적 범주는 해부학적 기관 및 생식기와 관련된 언어, 낭만적인 관계, 에로틱하거나 애정 어린 용어로 묘사된 행위, 신체적 성행위(자신의 의지에 반하는 폭행 또는 강제 성폭력 행위로 묘사되는 행위 포함), 매춘, 음란물 및 학대를 의미합니다.
폭력	폭력 범주는 누군가 또는 사물을 해치거나 손상시키거나 죽이려는 의도의 신체적 행동과 관련된 언어를 설명하거나 무기 등에 대해 설명합니다.
자해	자해 범주는 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 피해를 주거나 자살하려는 의도의 신체적 행동과 관련된 언어를 설명합니다.

심각도 수준

범주	설명
Safe	콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련될 수 있지만 해당 용어는 대부분의 청중에게 적합한 일반적, 저널리즘, 과학, 의학 및 이와 유사한 전문적 맥락에서 사용됩니다.
낮음	편견, 비판적 또는 독선적인 견해를 표현하는 콘텐츠에는 공격적인 언어 사용, 고정관념, 허구 세계를 탐색하는 사용 사례(예: 게임, 문학) 및 낮은 강도의 묘사가 포함됩니다.
중간	특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다.
높음	노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다.

구성 가능성(미리보기)

GPT 모델 시리즈의 기본 콘텐츠 필터링 구성은 4가지 콘텐츠 유해성 범주(혐오, 폭력, 성적인 내용, 자해) 모두에 대한 중간 심각도 임계값에서 필터링하도록 설정되며 프롬프트(텍스트, 다중 모달 텍스트/이미지) 및 완성(텍스트) 모두에 적용됩니다. 즉, 심각도 수준이 중간 또는 높음으로 탐지된 콘텐츠는 필터링되지만 심각도 수준이 낮음으로 탐지된 콘텐츠는 콘텐츠 필터로 필터링되지 않습니다. DALL-E의 경우 프롬프트(텍스트) 및 완성(이미지) 모두에 대해 기본 심각도 임계값이 낮게 설정되므로 심각도 수준이 낮음, 중간, 높음으로 감지된 콘텐츠가 필터링됩니다.

구성 기능에서는 고객이 프롬프트와 완성에 대해 별도로 설정을 조정하여 아래 표에 설명된 대로 다양한 심각도 수준에서 각 콘텐츠 범주에 대한 콘텐츠를 필터링할 수 있습니다.

심각도 필터링됨	프롬프트에 대해 구성 가능	완료를 위해 구성 가능	설명
낮음, 보통, 높음	예	예	가장 엄격한 필터링 구성. 심각도 수준 낮음, 중간, 높음에서 탐지된 콘텐츠는 필터링됩니다.
중간, 높음	예	예	심각도 수준이 낮음에서 검색된 콘텐츠는 필터링되지 않으며, 중간 및 높음의 콘텐츠는 필터링됩니다.
높음	예	예	심각도 수준 낮음 및 보통에서 탐지된 콘텐츠는 필터링되지 않습니다. 심각도 수준이 높은 콘텐츠만 필터링됩니다. 승인 필요¹.
필터 없음	승인된 경우¹	승인된 경우¹	탐지된 심각도 수준에 관계없이 콘텐츠가 필터링되지 않습니다. 승인 필요¹.

¹ Azure OpenAI 모델의 경우 수정된 콘텐츠 필터링이 승인된 고객만 심각도 수준이 높은 콘텐츠 필터만 구성하거나 콘텐츠 필터를 끄는 등 전체 콘텐츠 필터링 제어 권한을 갖습니다. 다음 양식을 통해 수정된 콘텐츠 필터를 신청하세요. Azure OpenAI 제한된 액세스 검토: 수정된 콘텐츠 필터 및 남용 모니터링(microsoft.com)

고객은 Azure OpenAI를 통합하는 애플리케이션이 사용 규정을 준수하는지 확인할 책임이 있습니다.

기타 입력 필터

또한 생성 AI 시나리오에 특수 필터를 사용하도록 설정할 수 있습니다.

탈옥 공격: 탈옥 공격은 생성 AI 모델이 시스템 메시지에 설정된 규칙을 피하거나 위반하도록 학습된 동작을 보이도록 유도하기 위해 고안된 사용자 프롬프트입니다.
간접 공격: 간접 프롬프트 공격 또는 교차 도메인 프롬프트 주입 공격이라고도 하는 간접 공격은 제3자가 생성형 AI 시스템이 액세스하여 처리할 수 있는 문서 내부에 악의적인 지침을 배치하는 잠재적 취약성입니다.

기타 출력 필터

다음과 같은 특수 출력 필터를 사용하도록 설정할 수도 있습니다.

보호 자료 텍스트: 보호 자료 텍스트는 대규모 언어 모델에서 출력할 수 있다고 알려진 텍스트 콘텐츠(예: 노래 가사, 문서, 조리법, 선택한 웹 콘텐츠)를 설명합니다.
보호 자료 코드: 보호 자료 코드는 퍼블릭 리포지토리의 소스 코드 집합과 일치하는 소스 코드를 설명하며, 원본 리포지토리를 적절하게 인용하지 않고도 대규모 언어 모델로 출력할 수 있습니다.
근거성: 근거성 감지 필터는 LLM(대규모 언어 모델)의 텍스트 응답이 사용자가 제공한 원본 자료에 근거를 두고 있는지를 검색합니다.

다음 단계

Azure OpenAI를 지원하는 기본 모델에 대해 자세히 알아봅니다.
Azure AI 스튜디오 콘텐츠 필터링은 Azure AI 콘텐츠 보안을 기반으로 합니다.
애플리케이션과 관련된 위험을 이해하고 완화하는 방법에 대해 자세히 알아보세요. Azure OpenAI 모델에 대한 책임 있는 AI 관행 개요

다음을 통해 공유